文|硅基星芒
內有DeepSeek和小米瘋狂降價,外有Anthropic和Google推陳出新,馬斯克也坐不住了。
今天早上,馬斯克在xAI平台上的一條高調轉發,試圖向AI開發者圈子拋出深水炸彈。
事情的起因是,著名的智能體平台Kilo Code發布了一項極為反直覺的硬核實測:測試者僅僅給出了一個模糊而開放的指令,xAI最新發布的編程模型Grok Build 0.1就在極短的時間內,完整地規劃、編寫並最終上線了一個包含複雜退避重試機制、安全簽名驗證以及數據庫持久化能力的Webhook後端微服務。
更令人眼前一亮的是它的最終賬單,整個流程一氣呵成,總成本只有1.65美元。馬斯克也對此親自讚好轉發,並留下了一句極具煽動性的評價:「Good value for money(物超所值)」。
在GPT-5.5定價依然高高在上、Claude Opus 4.8算力稅沉重的今天,馬斯克旗下Grok Build 0.1這波操作,很難不讓人聯想到,它試圖在硅谷復刻中國大模型的路線:用極致的價格,重新定義AI Coding的性價比。
不過,開發者圈子裏有一句話,「老馬的嘴,騙人的鬼」,馬斯克真的搞出了一個「美國編程版DeepSeek」,而不是所謂的「美國大豆包」嗎?先別急着喝彩。脫下實測的經驗外衣,結合全球AI競爭的權力版圖與資深工程師的源碼探究,其實這是一場精妙的自救與豪賭。
01自救計劃
要看懂Grok Build 0.1的定位,絕對不能只看老馬一天發無數條的推文,而是要看xAI旗下Grok系列模型的生存窘境。
前段時間Google發布Gemini 3.5 Flash後反響極差,被不少人戲稱為「美國大豆包」。但在我看來,這個名號放到Grok頭上才更貼切。畢竟,在目前的全球大模型第一梯隊中,xAI的處境其實非常尷尬。
根據權威評測機構Artificial Analysis最新的排行數據,Grok系列模型雖然在部分參數上仍然堅挺,但在覈心的Intelligence Index排行榜上已經被「中美聯軍」所包圍。
拋開OpenAI、Anthropic和Google這全球頂級、遙遙領先的「御三家」不談,阿里的Qwen3.7 Max、月之暗面的Kimi K2.6以及小米啱啱降價的MiMo-V2.5-Pro,都已經在多項基準測試中對Grok形成了全面壓制。
而在Coding和Agentic這兩個更加具體的領域,xAI的表現更是不盡如人意,早已被甩出前十,在開發者圈子中無人問津。Grok現在唯一的舞台,是在x平台上憑藉多模態能力和寬鬆的內容限制大放光彩,「美國大豆包」名不虛傳。
在這種「全能拼不過、生態被蠶食」的情況下,前不久在與OpenAI的官司中敗訴的馬斯克如坐鍼氈,毅然決然地選擇了一套非常聰明的戰術:抄既是xAI合作伙伴、也是OpenAI最大對手的Anthropic的作業,走垂直編程專精的「偏科生」路線。
Grok Build 0.1正是這種思路下的第一個產物。它的定價極具侵略性:輸入1美元/1M tokens,輸出2美元/1M tokens,還不到GPT-5.5和Opus 4.8的十分之一。
馬斯克深知,全球的開發者都有一個共同的特點,那就是對價格和性能極度敏感,他試圖用「試錯自由」來重新奪回原本屬於自己的生態位。即使一次生成的代碼跑不通,花幾美分重跑一遍也不心疼。因此,馬斯克只能用這種「廉價勞動力」的模式,試圖從編程這個垂直切口,強行撬開OpenAI的護城河。
02物超所值
客觀來看,Kilo Code這波實測確實給老馬和Grok爭了口氣。它展現出來的不僅是代碼生成能力,還有驚人的Agentic工作流邏輯。這種強大邏輯能力的體現,甚至讓一些資深的後端工程師感受到了一絲職業危機。
看完Kilo Code發布的技術報告,Grok Build 0.1的閃光點主要有兩個:
一是架構師級的規劃深度。
這款新模型的思路與人類架構師的想法幾乎完全一致,拒絕盲目動手,而是先問「為什麼」。
「用TypeScript、Bun和SQLite建一個微服務」,這已經算是懂技術的產品經理給出的指令了。但光是看到這條指令,無數程序員可能已經開始頭疼:任務十分開放、沒有嚴格的架構規劃、也沒有具體的需求。
然而,Grok這次表現得像是個擁有多年從業經驗的架構師。它沒有直接輸出代碼,而是先執行了聯網搜索,深度調研了Stripe和GitHub上的行業標準,並向測試者拋出了多個關鍵的架構反問:
Kilo Code將之命名為「規劃階段」,而這個階段的總花費恐怕誰也想不到:0.17美元,附帶着一份包含ASCII架構圖、Drizzle Schema定義和明確的風險評估報告。
這種「先想再做」的思路,是人類工程師必備的職業素養,也是Grok避開早期AI編程最容易出現的「答非所問」問題的關鍵技術。
二是極度舒適的自主糾錯能力。
到了編碼階段,Grok能夠以120 tokens/秒的流暢速度輸出代碼。
不僅如此,在配置環境時,它還遇到了Bun的ABI不匹配以及Zod的類型錯誤,這在傳統的Vibe Coding過程中顯然需要人工進行干預。但Grok在沒有任何提示的情況下,自主診斷報錯、重新調整導入路徑、修改配置文件,最終一氣呵成搞定了26個工程文件。
這也是Kilo Code重點誇獎的特性:全程零工具調用失敗,成本僅僅1.48美元。這種絲滑的Agentic體驗,確實對得起「Build」這個名字。
03致命短板
正當人們準備為幾美元即可兌換的生產力而歡呼時,社交平台和技術社區的清醒聲音給了老馬一記重錘。
顯然,馬斯克試圖對AI Coding的性價比進行重新定義。
Grok Build 0.1的低價,是建立在對比昂貴的GPT-5.5和Opus 4.8基礎上的。但如果把目光放到全球,這波低價營銷的侷限性就凸顯出來了。就在Kilo Code發布技術報告的評論區裏,網友直接開炮:
「簡直一派胡言。甚至連免費版的DeepSeek Flash都能處理這種規模的問題。」
技術社區Linux.do同樣反響不佳,該模型被評價為「幹活不主動、理解能力差」。
這就揭露了一個尷尬的現實:馬斯克自以為的「白菜價」,在國產大模型早已打到地板的價格體系面前,並不具備絕對的代差優勢。
而我始終堅持的觀點也未曾動搖:當下AI競爭的格局,要麼做到性能領先,要麼做到極致性價比,位於中間地帶的模型,並不具備多少實際應用價值。
更致命的短板在於上下文窗口,只有256K。
在長上下文模型層出不窮、1M窗口已經成為複雜任務標配的今天,256K顯得捉襟見肘,甚至有些可笑。這就意味着,Grok在「從零構建項目」時表現出色,但一旦進入真實的、已經擁有幾十萬行代碼的項目時,它壓根無法裝入足夠的歷史上下文,最後的結果自然是幻覺頻出、指令遵循能力差和主動性差。
與此同時,馬斯克這次發布模型依然採取了「拒絕跑分、純靠曬單」的營銷策略。然而,一年前的編程模型Grok Code Fast 1就頻繁被詬病,儘管人們現在對第三方評測機構和基準測試的結果的信任與日俱減,但就像此前說的,基準測試是「及格線」而不是「優秀線」,缺乏第三方測試支撐的發布,難免被質疑存在倖存者偏差的過度包裝。
04源碼探究
同樣是在Kilo Code的評論區下,一條評論呼籲所有人保持警醒:
「說任何人都能用AI寫代碼的人是錯的,如果你需要有用的東西,你需要理解的遠不止提示詞。」
如果深入探究Grok Build 0.1僅僅花費幾美元生成的源碼,結果就不只是一次生產力的飛躍,還有一次安全漏洞的博弈。
儘管Grok寫出的代碼工程結構非常規範,甚至貼心地配置了SQLite的併發WAL模式和非破壞性重試機制,但專業的代碼審查還是挑出了幾個致命的bug:
1.在Webhook最關鍵的簽名比對環節,Grok默認使用了普通的字符串檢查,而非抗時序攻擊的crypto.timingSafeEqual。這在黑客眼裏無異於敞開的大門。
2.Grok在查詢接口時,無意中泄露了本應該加密保存的密鑰字段(encryptedSecret)。儘管加了密,但在返回API時,這種做法還是完全違背了它自己在README裏制定的安全規範。
3.Grok一共編寫了14個基礎單元測試,但在自動暫停機制、重試循環的集成測試等一系列複雜的業務邏輯上並未給出有效的方案,屬於避重就輕。
這是對全球AI開發者和開發企業敲響的一次極有價值的警鐘,它印證了兩件事:
第一,AI不會消滅程序員,只會把程序員逼成更嚴苛的「技術審查員」。如果開發者真的覺得只要靠文字描述就能寫出千萬級的架構,那麼使用Grok幾美元節省下來的成本,一定會轉變為成千上萬倍安全補丁和系統重構的代價。
第二,零門檻編程不等於人人都能當程序員,不等於能開發出可運行的應用,更不等於能實現商業價值。假設有一個完全不懂程序開發,只是熱衷於AI Coding這個詞的外行人,那麼對於上述Grok的漏洞,恐怕無法理解其中的任意一點,更別提修復和完善。而這些bug,恰恰是實現商業價值的過程中必須杜絕的。
05結語
總體來說,Grok Build 0.1的發布以及Kilo Code的實測對xAI來說是一次極其成功的宣傳。
它精準命中了開發者對「便宜、好用、懂工程架構、能自主Debug」這種看起來不切實際的幻想,並證明了馬斯克在垂直編程領域確實擁有一戰之力。對於需要快速產出原型、驗證邏輯的國外開發者而言,它就是目前最趁手的工具。
但要是想讓它成為「美國編程版DeepSeek」,或是想讓它重塑全球編程模型排行榜,還有很長的距離。
在全球AI競爭進入深水區的下半場,單純的價格戰並不能永久地維護住護城河。能否處理超長上下文、能否在複雜的遺留代碼中精準重構、能否在生成代碼的同時嚴守安全底線,纔是xAI能否逆襲「御三家」的關鍵。
馬斯克這一槍打響了,不過子彈還得再飛一會。
至少現在,即便只花了幾美元就解決了需求,用戶也得老老實實坐回電腦前,仔細看看每一行代碼是否會被黑客們鑽了空子。