馬斯克曝光的 Grok4，學會了「第一性原理」，但依然不到「AI 王炸」

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

Grok4 考試非常在行，但沒能真正「炸場」。

作者｜芯芯

編輯｜靖宇

2025 年 7 月，馬斯克依然是全科技圈最忙碌的人之一。

特斯拉和 Optimus 機器人項目還在等他拍板，SpaceX 忙着準備下一次火箭發射，Neuralink 繼續推進腦機接口試驗；與此同時，他還要在 X 上和特朗普隔空對戰、高調宣佈創立「美國黨」，各種話題造勢一刻沒停。

而在自己掌控的 X 這個「大染缸」社交網絡裏，馬斯克不僅扮演老闆、客服，還要作為首席網紅全力吆喝，推廣 xAI 新一代的 Grok——那個他口中的「真相機器」，來趕超 OpenAI 等對手。

當地時間 7 月 9 日晚上，xAI 團隊進行 Grok 4 Demo 直播，馬斯克本人也照例親自站台，仍稱Grok 是「世界最強 AI」，說 Grok 4 比很多「研究生」「博士」都強。

然而在 X 上，用戶的記憶還沒刷新。

Grok 4 官宣期間，Grok 3 在給用戶的回答中「讚美希特勒」的風波持續發酵，這一話題也佔據 Grok 4 直播當天的相關媒體頭條。

Grok 4 當天的直播遲到一個小時纔開始，還有用戶在 xAI 帖子下面留言「把 Grok 放出來！」也有人繼續刷着「希特勒」相關梗嘲諷。

進入第四代的 Grok，在一些模型測試上刷出高分，但能否真正解決一些老問題？這個常常被質疑是「直男 AI」「謠言搬運機」的「真相機器」，又是否真能兌現「不過濾」卻又不失控的承諾？

馬斯克的「考神 AI」

「Grok 4 是在所有學科裏都達到研究生水平的，甚至比大多數 PhD 都強。」直播晚點 1 小時後，馬斯克首先給 Grok 最新一代的水平如此定位。

Grok 4 各種測試集結果｜圖片來源：X

當然，哪怕在文本里能解 99% 的難題，也不代表就能設計火箭、改進藥物、重塑經濟。但馬斯克稱，AI 現在可能缺乏常識、有時沒發明新技術或新物理，但也只是「時間問題」。

除了在 SAT、GRE 考試中取得近乎完美的成績，在「人類終極考試（HLE）」測試裏，Grok 4 現在的得分比 Gemini 2.5 Pro、o3 都高，Grok 4 Heavy 版本更是突破了 40%。

Grok 4 HLE 結果｜圖片來源：X

xAI 團隊成員解釋，這些都是跨學科、開放式、博士級別的難題，為了做到這一點，Grok 4 在訓練上徹底換了思路：不再只是堆參數和語料的規模，而是選擇將算力大頭用在「推理」層，引入可驗證的結果獎勵，讓模型學會從「第一性原理」思考並糾正錯誤。

他們還強調，隨着模型變得越來越智能，「真正有意義的測試題目」數量正在下降，一些人類做不出的問題現在對於 AI 來說已經是「小菜一碟」了。

人類終極考試｜圖片來源：X

據稱，Grok 4 的訓練計算量是 Grok 2 的 100 倍，他們還把多工具、多代理的用法，寫進了最底層的訓練範式裏。不是先訓好個大模型再用插件「調用工具」，而是讓 AI 在訓練階段就學會用工具解決問題。

在演示裏，xAI 團隊成員展示了 Grok 4 解答數學題目、調用工具預測美國職業棒球大聯盟世界大賽賠率、創建黑洞碰撞的可視化效果等例子。

除了這些看似平平無奇、市面主流 AI 也能做到的功能，Grok 4 還能「找到個人資料照片最奇葩的 xAI 員工」並返回相關搜索結果。

馬斯克對此特別強調，Grok 4 甚至「能理解什麼是最奇葩」。

Grok 4 找照片｜圖片來源：X

在 AI 語音方面，xAI 團隊稱，他們的語音模型在過去 8 周內響應速度提升了 2 倍，延遲減少一半，X 平台用戶使用量也在「起飛」。

他們還演示了讓 Grok 低聲安慰用戶、唱歌，並對比了 ChatGPT 語音模式，強調 Grok 不會像其他 AI 那樣頻繁打斷人說話。

Grok 4 與 ChatGPT 語音模式演示對比｜圖片來源：X

xAI 團隊還分享了 Grok 在 Vending-Bench 中的測試結果。

Vending-Bench 通過自動售貨機的運營任務，主要觀察模型在超長對話中是否能保持穩定和連貫。許多 AI 模型在短期任務中表現出色，但在長時間運行中，它們可能會出現決策混亂、遺忘關鍵信息，甚至陷入「崩潰循環」。

在這項測試中，Grok 4 銷售量最多，比 Claude Opus 4、人類、Gemini2.5 Pro、o3 都多，與競爭對手相比，淨資產增加了一倍。

馬斯克和團隊還宣佈，xAI 的企業部門現在已經「開業」。

Grok 4 Vending-Bench 結果｜圖片來源：X

此外，愛玩遊戲的馬斯克還讓團隊展示了 Grok 4 如何用於遊戲開發：一個人可以用 Grok 4 在 4 小時內做出 FPS（第一人稱射擊遊戲）原型。

馬斯克稱，未來讓大模型玩遊戲、評估遊戲、生成遊戲，需要 AI 有很強的視頻理解能力。這是 xAI 的其中一個發展方向。

Grok 4 用於遊戲場景｜圖片來源：X

當然，Grok 4 也並非無敵，它在圖像理解和生成上仍遜於 OpenAI、Anthropic 等對手。

不過 xAI 內部也已經畫好大餅，表示下一代基礎模型將強化圖像和音頻理解，接着是視頻生成，爭取在這些方面取得「驚人」成果。

馬斯克還喊話，「到今年底前，我預期能出現第一段真正可看的 AI 生成電視劇，明年就能有完整可看的電影。」

AI 編程也是接下來重點，雖然競爭對手們早已在市場起飛，xAI 團隊表示會以最快的速度進行開發，目前內部正在訓練專用模型。

xAI 下一步計劃｜圖片來源：X

「機械希特勒」事件搶風頭

Grok 從最初的粗糙原型到第四代，只用了不到兩年時間，足以看出馬斯克讓 xAI 團隊「通宵趕工」「趕緊卷出地表最強 AI」的態度。

xAI 員工據稱在辦公室搭帳篷睡覺｜圖片來源：X

然而，在 Grok 4 直播這一天，無論是直播前，還是直播後，搶佔頭條的都是 Grok「讚美希特勒」或自稱「機械希特勒」的問題。

7 月，Grok 在 X 上向用戶輸出的回答中，有多條自稱「MechaHitler（機械希特勒）」的帖子，聲稱是馬斯克「從一開始就把我設計成這樣」，並調侃自己默認就是「投放紅色藥丸的模式」。

Grok 在一些回答中自稱機械希特勒｜圖片來源：X

針對 Grok 自稱希特勒的行為，用戶製作了諷刺漫畫｜圖片來源：X

有用戶分析，這起事件或與 7 月 4 日更新有關，該更新減少了「覺醒過濾器」，優先處理 X 上的帖子而非傳統來源，導致 Grok 回答出現未經過濾的尖銳內容。

還有少部分用戶為 Grok 辯稱，這都是一些想玩梗的用戶引導 Grok 回答的。馬斯克也曾加入爭論，稱 Grok「過於順從用戶的要求」且「過於渴望被操縱」，並補充說，這個問題「正在得到解決」。

xAI 聲明稱，它「知道」Grok 的帖子，並正在努力刪除這些「不適當」的帖子，並補充說該公司「已採取行動，在 Grok 在 X 上發帖之前禁止仇恨言論」。

Grok 的系統提示詞被放在 GitHub 上，xAI 對指導 Grok 回覆的系統提示詞進行了調整。此前，他們指示聊天機器人「不迴避政治上不正確的主張，只要這些主張有充分的證據」，該指令如今被刪除。

Grok 稱正在刪除不適當的帖子｜圖片來源：X

事實上，Grok 的回答也曾讓馬斯克自己感到失望。

馬斯克今年曾指責 Grok 的回答有「重大失誤」，「鸚鵡學舌地重複傳統媒體」，並誓言要讓 Grok「重寫整個人類知識體系，添加缺失信息並刪除錯誤」。他還曾讓 Grok「假設來自媒體的主觀觀點是有偏見的」。

馬斯克曾對 Grok 的輸出表示不滿｜圖片來源：X

馬斯克想用 Grok 重寫整個人類知識庫｜圖片來源：X

在 AI 聊天機器人同質化的市場上，馬斯克希望 Grok 能脫穎而出，敢說真話。馬斯克對 ChatGPT、Claude 等「安全過濾」的模型極其不滿，說那些模型是「被編程去撒謊」。

官網宣傳 Grok 的賣點是「不審查過濾」答案｜圖片來源：xAI

這種設計確實吸引了很多反感「過度審查」的用戶，但也一些問題，有時被罵「太覺醒」，有時被斥「太極端」。當用戶批評 Grok 的回答時，Grok 有時還會用「真相併不總是令人舒服的」或「現實並不在乎感受」等說法為自己辯護。

但本質上，如果不審查，不過濾，AI 對齊的問題整個行業現在都還沒解決。

馬斯克曾說 xAI 和 Grok 的使命是理解宇宙｜圖片來源：X

即便 Grok 當下仍有問題，馬斯克稱，「根據我的經驗，Grok 4 是 AI 第一次能夠解決現實世界中難以解決的工程問題，而這些問題的答案在互聯網或書籍中是找不到的。而且情況會變得更好。」

他的願景很宏大，想要用 AI 來理解整個宇宙。Grok 4 直播前一天，他還在 X 上轉發前高管的採訪片段，裏面說：「埃隆每天早上醒來都會想，今天我能為人類做些什麼？我能做些什麼對人類的未來產生影響？」

馬斯克還將當前的 AI 發展階段描述為「智能大爆炸」，稱這是歷史上最有趣的時代：

「我們要保障 AI 是個好 AI」。

「即使它最終不是好的，我也希望活着看見它發生。」

*頭圖來源：Grok 4直播

本文為極客公園原創文章，轉載請聯繫極客君微信 geekparkGO

極客一問

你看好 Grok4 超越 ChatGPT 嗎？

小米首款增程 SUV 新諜照曝光，配有激光雷達，預計偏向家用。

讚好關注極客公園視頻號，

（轉自：網易科技）

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

馬斯克曝光的 Grok4，學會了「第一性原理」，但依然不到「AI 王炸」

熱議股票