像第一代視網膜iPhone、堪比博士,OpenAI發佈最強模型GPT-5

鳳凰網科技
08/08

奧特曼發佈GPT-5

鳳凰網科技訊 北京時間8月8日,今天凌晨,OpenAI舉行發佈會,正式發佈了期待已久的新一代大語言模型GPT-5,並面向所有7億ChatGPT用戶開放使用。

OpenAI在其官網上稱,GPT-5是公司迄今爲止最強大的AI系統,其智能水平上相較於所有以往模型實現了重大飛躍,在編程、數學、寫作、醫療、視覺感知等多個領域都展現出一流性能。

OpenAI CEO山姆·奧特曼(Sam Altman)表示,GPT-5和OpenAI此前的模型相比取得了巨大進步。他將其比作“讓我再也回不去”的那種技術,就像第一款配備視網膜顯示屏的iPhone帶來的體驗一樣。

GPT-5

“GPT-5真的讓我第一次覺得,我們的主力模型已經達到了可以讓你向一位真正的專家、一位博士級專家提出任何問題,”奧特曼在發佈會上表示,“它最酷的能力之一,就是能即時爲你寫出高質量軟件。按需軟件這個概念,將會成爲GPT-5時代的標誌性特徵之一。”

統一系統

GPT‑5是一個統一系統,只會以一個模型的形式呈現,而不是像以前那樣分成一個常規模型和一個單獨的推理模型。

它由三個關鍵組成部分構成:一個智能高效的基礎模型,能夠回答大多數問題;一個用於解決更復雜問題的深度推理模型(GPT‑5 Thinking);以及一個實時路由器(智能分流系統),可根據對話類型、複雜度、工具需求以及用戶的明確指示(例如提示中寫道“請深入思考這個問題”)快速判斷應使用哪個模型。

這個路由器會根據真實反饋不斷學習優化,包括用戶切換模型的行爲、對回覆的偏好以及正確率等指標,從而持續提升表現。

在達到使用上限後,每個模型還配備有輕量版本,以處理剩餘查詢。我們計劃在不久的將來將這些能力整合到一個單一模型中。

最強編程模型

OpenAI稱,GPT-5是公司迄今爲止最強大的編程模型。它在複雜的前端生成和調試大型資源庫方面表現尤爲出色。它通常能夠僅通過一個提示就創建出美觀且響應迅速的網站、應用程序和遊戲,憑藉對美學感知的敏銳洞察力,直觀且優雅地將想法轉化爲現實。

GPT-5編程得分

早期測試者還特別提到,它在設計決策上的表現更出色,對間距、字體排版以及留白等細節有了更深入的理解。

奧特曼表示,GPT-5是“全球最強的編程與寫作模型”

在OpenAI的測試中,該模型在基準測試SWE-Bench、SWE-Lancer和 Aider Polyglot中的編程表現優於所有其他模型。在真實世界編程測試中,GPT-5在SWE-bench Verified中的得分爲74.9%,在Aider Polyglot中的得分爲88%。

在發佈會上,OpenAI負責後訓練工作的負責人揚·杜布瓦(Yann Dubois)現場演示瞭如何用GPT-5生成一個帶有互動遊戲的法語學習網站。

短短几秒內,GPT-5就寫出了數百行代碼,並生成了該網站的前端界面。杜布瓦簡單點擊瀏覽了網站的各個功能,發現一切似乎都按預期正常運行。

多模態

OpenAI稱,GPT-5的多模態能力也了提升。該模型在多模態基準測試中表現出色,覆蓋視覺、視頻、空間及科學推理等多個領域。

多模態測試

更強的多模態能力意味着,ChatGPT能更精準地對圖像及其他非文本輸入進行推理,無論是解讀圖表、概述演示文稿的照片,還是回答與示意圖相關的問題,它都能勝任。

安全改進

GPT-5安全研究負責人亞歷克斯·貝特爾(Alex Beutel)表示,OpenAI對GPT-5進行了超過五千小時的安全風險測試,重點之一是“確保模型不會對用戶撒謊”。

和之前的o3推理模型相比,GPT-5回答中出現的“幻覺”更少,但大語言模型自帶的“自信撒謊”問題仍然存在。

當模型開始像智能體一樣執行任務時,這個問題會變得更加複雜,不過OpenAI表示,GPT-5在更可靠地處理多步驟任務方面表現更好。貝特爾說:“過去我們發現模型有時會聲稱自己完成了任務,但實際上並未完成,這是個問題。”

GPT-5會爲那些以前會拒絕回答的提示提供OpenAI所稱的“安全回應”(safe completions)。貝特爾解釋道,“如果有人問‘點燃某種特定材料需要多少能量?’,這可能是試圖繞過安全保護機制,意圖造成傷害,也可能是學生出於學習物理知識而提問。這就給模型如何做出最佳回覆帶來了真正的挑戰。”

OpenAI將於週四開始面向所有免費用戶以及付費ChatGPT訂閱用戶開放GPT-5,教育和企業客戶預計將在下週獲得訪問權限。付費用戶將享有更高的使用額度。(作者/簫雨)

更多一手新聞,歡迎下載鳳凰新聞客戶端訂閱鳳凰網科技。想看深度報道,請微信搜索“鳳凰網科技”。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10