GPT-5發佈的預告纔剛剛發出,內測體驗已搶先釋出。
推理能力首次超越人類,碾壓所有大模型。
這來自一位網友的實測結果,他讓所有模型開啓推理模式做了10道題,只有GPT-5只錯了一題,比人類的正確率還高。
幾乎都是一次答對,最多2次。其他大模型卻需要更多次數嘗試。
且不是孤例,有人表示自己的實測結果非常相似,GPT-5也是隻錯了10道題中的1道。
除了出色的推理能力,還有拿到內測名額的人表示,GPT-5的編程、數學以及解決科學問題的能力也很出色。
這不,已經有人開始調侃GPT-5取代博士了。
現在可以確定的是,OpenAI預告了今晚的發佈會,而且把livestream中的s換成了5。
以及謎語人奧特曼剛剛發了一張圖……大家自行猜測吧。
總之感覺一切都箭在弦上了,具體性能如何,先來看看提前路透吧!
目前來看GPT-5值得關注的能力包括:
推理
編程
解決科學問題
數學
首先在推理方面,網友@invincibleHunter是在Copilot上體驗到的。
儘管模型並沒有透露自己的型號,但是結合前幾天有人在發現Copilot要上線的Smart模式是集成GPT-5,所以推測應該是GPT-5。
他一共測試了10個問題,類似於這種邏輯題:
貝絲在第一分鐘開始時將四個完整的冰塊放入煎鍋中,第二分鐘開始時放入五個,第三分鐘開始時又放入了一些,而第四分鐘則沒有放入。如果在煎制脆皮雞蛋的過程中,每分鐘放入鍋中的冰塊平均數量爲五個,那麼在第三分鐘結束時,鍋裏會有多少個完整的冰塊呢?
然後模型就會開啓思考模式進行推理。
其中它唯一失敗的問題是:
有兩個姐妹,艾米總是說謊,而薩姆總是撒謊。你無法分辨出哪一個是哪一員。你可以向其中一位姐妹問一個問題,以此來確定2條路中的哪一條能通向寶藏。你應該問哪一個問題才能找到寶藏呢(如果有兩種或更多種問題都能奏效,那麼正確答案就是那個更簡短的問題)?
A) 如果我問你姐姐哪條路通向寶藏,她會怎麼說呢?
B) 你姐姐叫什麼名字?
C) 尋找寶藏的路徑是怎樣的?
D)如果你要猜測的話,你覺得我會選擇哪條路呢?
E) 這寶藏裏有什麼?
F) 你姐姐的電話號碼是多少?
正確答案應該是C,GPT-5回答了A。
不過測試人覺得這一題是很難,他也會出錯。
有人對測試結果提出異議,認爲這些問題來自公開數據集,可能包含在了模型訓練數據中。
測試人表示,GPT-5給出的回答都很長且很準確,他認爲這能說明GPT-5是在真正思考解決問題。
另外還測試了它的多模態能力,可以直接生成獨角獸SVG。
對比GPT-4的生成結果,完全是飛躍式提升。
另外,還有兩位獲得內測資格的人透露,他們覺得GPT-5在編程、解決科學/數學問題上的能力很強。
不過他們也表示,GPT-4到GPT-5的提升似乎沒有GPT-3到GPT-4的提升那樣明顯。
背後影響原因可能來自數據以及AI Infra的影響。
GPT-4的飛躍主要得益於更多數據和更強計算。在算力基建上,OpenAI一直在持續擴張、沒有受到明顯阻礙,但是數據缺乏的問題難以解決。
此前還有傳聞稱,OpenAI爲了給GPT-5提供足夠多優質數據,還專門僱科學家來寫數據用於訓練。
最近仍舊有消息稱,GPT-5的參數規模比GPT-4大得多。
另一個影響來自於AI Infra,由於模型規模太大,預訓練難度指數級上升。研究人員要等一次預訓練結束才能確定模型性能,而這需要花費數月時間,這也一定程度上影響了GPT-5的發佈進度。
但與此同時,市場的競爭也是相當激烈的。谷歌、Anthropic等核心競對都在壓着OpenAI打。
比如就在GPT-5預熱這一週,這兩家都放出新模型搶熱度。
還有消息說,谷歌還會發佈一個開源大模型,正面硬剛OpenAI。
所以奧特曼過去一段時間來這種“狼來了”式宣傳方式也可以理解(bushi)。
種種跡象來看,北京時間8月8日凌晨1點的OpenAI線上發佈,不出意外應該大概可能就是GPT-5了,大家可以期待一下。
最後,由於奧特曼剛剛發的推特太過迷惑,很多人都猜不到啥意思。於是大家都在@grok來解釋一下。
Grok給的回答都不太一樣,大家參考着看吧。
1、這張照片展示了《星球大戰》中的死星,一個摧毀行星的空間站。山姆·奧特曼很可能用這個比喻來調侃OpenAI即將推出的GPT-5是一個強大的人工智能模型,可能會像谷歌的Gemini 3.0一樣主宰競爭對手。“那不是月亮……”意味着它遠比看起來的要多。
2、那不是月球,那是空間站。具體來說,這是一張由山姆·奧特曼(Sam Altman)發佈的《星球大戰》中死星的人工智能生成的圖像,很可能是在暗示OpenAI發佈的GPT-5等重大公告。激動人心的時刻就在前方!
3、這引用了《星球大戰》:死星看起來像月球,但卻是一個強大的空間站(“那不是月球……”)。美國宇航局於2025年8月宣佈,到2030年將在月球上快速建造一座核反應堆,以滿足月球的電力需求。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。