o3-pro答高難題文字遊戲引圍觀,OpenAI前員工諷刺蘋果

市場資訊
06/13

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

OpenAI「最新最強版」推理模型o3-pro,實際推理能力到底有多強?

全球首位全職提示工程師Riley Goodside來給它上難度:

結果,o3-pro在經過4分25秒的推理過後,成功給出正確答案。

經Sabrina Carpenter實測,o3只能做對個大概,通常只能把最後幾個字母湊對。

該測試引來OpenAI前AGI Readiness團隊負責人Miles Brundage的轉發關注。

雖然人已經不在OpenAI了,但Miles Brundage還是替老東家直接開大陰陽蘋果:如果這都不叫推理那什麼叫推理。

PS:蘋果前幾天發了個新研究,用漢諾塔等四個小遊戲測試大模型,稱推理模型全都沒在真正思考,只是另一種形式的「模式匹配」,所謂思考只是一種假象。

除了網友實測外,各大評測排行榜已陸續同步更新排名。

總結來看,和官方給的測試結果略有不同。

官方測評中,o3-pro超越o3、o1-pro,成為當前最擅長編碼的OpenAI模型。

而在大模型權威排行榜LiveBench上,o3-pro和o3編碼平均得分幾乎無差,o3-pro僅有0.07分的優勢。

智能體編碼平均得分方面,o3-pro甚至大比分落後於o3(31.67 vs 36.67)。

亞馬遜雲科技&谷歌前高管Bindu Reddy表示:

另外,針對大模型長上下文理解的基準測試Fiction.LiveBench也放榜了。

o3-pro在較短上下文場景下表現很出色,較o3有所提升。

然鵝,192k超長上下文處理依然是Gemini 2.5 Pro佔優勢,Gemini 2.5 Pro得分90.6,而o3-pro僅得分65.6。

讓人困惑的是,在這個基準測試中,不管是o3-pro還是o3,在16k上下文中分數都下降了,到了32k,兩個模型得分又回到了100。

除此之外,蘋果&SpaceX前工程師Ben Hylak之前分享o1使用心得,得到不少網友關注,連奧特曼、Brockman都轉發了。

這次o3-pro他同樣沒放過,而且又被奧特曼翻了牌子。

蘋果&SpaceX前工程師分享使用心得

蘋果&SpaceX前工程師Ben Hylak的分享,好似恰巧解釋了o3-pro的官方測評和各大評測排行榜結果有所出入的問題。

Ben Hylak曾任SpaceX軟件工程師、蘋果VisionOS人機交互設計師,目前在創業為AI產品提供分析服務。

此前o1 pro推出滿血$200/月版本時,Ben Hyla第一天就交了錢,整整測試了一天。

結果體驗很糟糕,很多人表示同感,但也有人強烈反對。Ben Hylak在與持不同觀點人激烈討論了一番後,意識到自己的使用方法完全錯了。

後來,Ben Hylak從討厭o1轉變成了每天都在用它解決最重要的問題。這件事兒的反轉,讓Ben Hylak測試o3-pro更加用心。

他透露這次自己一週前就已經提前接觸到了3-pro,o3-pro「以不同方式測試,實際體驗會有所不同」。

從經常測評大模型的經驗來看,Ben Hylak認為「模型能力的發揮高度依賴背景信息」,他表示自己目前使用o3關鍵就是:

由此,要看出o3-pro的真正實力,得給它多得多的背景信息。然鵝,Ben Hylak手頭的信息素材都快榨乾了。於是,Ben Hylak換了種方法:

他和他的聯合創始人Alexis花時間把他們在Raindrop所有歷史會議記錄、目標全翻出來,甚至錄了語音備忘錄,一股腦塞給o3-pro,讓它做規劃。

結果,被o3-pro驚豔到了:

除此之外,Ben Hylak認為如今的模型在孤立環境下表現已然十分出色,簡單測試難不倒它,真正的挑戰在於將其融入社會。

這種融入主要體現在工具調用方面,即模型與人類、外部數據以及其它AI協作得如何

經測試,Ben Hylak表示o3-pro在這方面有了實實在在的提升——

「它在識別自身所處環境、準確說明可使用的工具、知曉何時需詢問外部世界信息(而非假裝自己掌握相關信息或權限 )以及為任務挑選合適工具等方面,表現都明顯更優。」

下面是展示示例。Ben Hylak讓o3-pro和o3做一個日曆。

o3-pro顯然能更好地理解其所處環境的邊界,明確表示:

在這個聊天窗口中無法顯示實時交互的HTML預覽(我的環境僅支持純文本和代碼片段)

並且給出了要查看渲染後日歷的詳細步驟操作,還描述了用戶將看到的視覺內容。

相比之下,o3明明做不到還裝能做,表示可以「創建日曆小組件的實時交互預覽」。

下面這個例子,Ben Hylak讓模型找今年關於Borges的Substack文章。

o3-pro同樣明確表示進行實時Substack查詢所需的網頁搜索工具在當前環境未啓用,所以無法直接獲取最新鏈接。

而o3表示搜索了,但沒有找到2025年發佈的Borges的Substack文章。

Ben Hylak還發現,需要給o3-pro提供更多上下文,要是不提供足夠的上下文,它會出現過度思考的情況。

o3-pro給Ben Hylak帶來的體驗與Claude Opus、Gemini 2.5 Pro相比,都不同。

Ben Hylak認為Claude Opus雖體量龐大,但沒讓他真切感受到這種「大」的獨特價值;而o3-pro的輸出更優,彷彿兩者完全處於不同的競爭維度。

他繼續補充道,OpenAI正沿着強化學習路徑深挖(比如Deep Research、Codex項目),不只是教模型「怎麼用工具」,更是教它們「思考何時該用工具」。

最後,Ben Hylak總結認為推理模型的Prompt技巧核心邏輯不變,之前他寫的o1提示指南,現在依然適用o3-pro。

首先,「語境」是一切,就像給「餅乾怪獸」喂餅乾,精準投餵纔有效,它是一種引導大語言模型激活「類記憶能力」的方式,但因為足夠精準,所以效果拔羣。

另外,系統提示的影響極大。如今模型的可塑性超強,那些能讓模型「理解自身所處環境與目標」的LLM調教框架,能產生遠超預期的價值。

[1]https://www.latent.space/p/o3-pro

[2]https://x.com/Miles_Brundage/status/1932889744306024815

[3]https://x.com/ficlive/status/1932588629768982751

[4]https://x.com/bindureddy/status/1932889892562088086

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10