谷歌首款混合推理Gemini 2.5登場,成本暴降600%!思考模式一開,直追o4-mini

新智元
2025/04/18

編輯:桃子 好睏

【新智元導讀】谷歌發布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考預算」,可靈活控制推理深度,性能一舉擊敗Claude 3.7,比肩o4-mini。而且,關閉思考模式成本直降600%。

啱啱,谷歌重磅發布首個混合推理模型——Gemini 2.5 Flash。

與Claude類似,新模型的「思考預算」可以自定義,即可開啓/關閉Gemini 2.5的思考模式。

值得一提的是,關閉思考的成本直接暴降600%,而且性能還不輸Gemini 2.0 Flash。

具體來說,Gemini 2.5 Flash關閉思考輸出價格0.6美元/百萬token,開啓思考輸出價格3.5美元/百萬token。

當然了,思考越久,模型性能也會隨之提升。

在GPQA知識問答中,新模型24k思考預算,性能提升了6%;對於代碼任務(LiveCodeBench),16k思考預算性能最佳。

在多項基準測試中,Gemini 2.5 Flash再次刷新SOTA。在大模型排行榜中,Flash預覽版以1392 ELO高分位居第二,與GPT-4.5-preview、Grok 3並駕齊驅。

在數學(AIME 2025/2024)、多模態推理(MMMU)、知識問答(GPQA)等基準上,Gemini 2.5 Flash完全碾壓Claude 3.7 Sonnet,足以與最新o4-mini相媲美。

就模型每百萬token輸入/輸出價格來看,Gemini 2.5 Flash更具性價比。

在人類最後一次考試中,Gemini 2.5 Flash拿下12.1%高分,僅次於o4-mini

目前,Flash預覽版可以在Gemini中使用,API同時向開發者開放。

首款混合推理Gemini登場

擊敗Claude 3.7

混合推理模型,就是專為需要在性能、成本、延遲之間找到完美平衡的開發者而設計。

Gemini 2.5 Flash不僅繼承了2.0 Flash的高速響應特點,還引入了革命性的「思考模式」——可根據任務需求靈活調整推理深度。

Gemini 2.5系是「思考模型」,能夠在回答前先行推理。

模型不會立即輸出結果,而是先執行「思考」流程,更好地理解提示詞,拆解複雜任務並規劃回答。

如下圖所示,相較於2.0 Flash,Gemini 2.5 Flash在複雜任務,如數學推理、科研分析中表現更優異。

在LMArena其他評估中,比如Hard Prompts、編碼、長查詢,Gemini 2.5 Flash全部拿下第一。

另外從下圖中可看出,在同類模型中,2.5 Flash以超高性價比領跑,兼具最優性能和極低成本的優勢。

網友實測

在網友的實測中,2.5 Flash物理模擬能力足夠驚豔,小球會隨着多邊形變化精準運動。

而且,2.5 Flash還輕輕鬆鬆通過了4o-mini/o3無法通過的Galton Board(高爾頓板)測試。

它還能根據精靈圖,創建出自定義遊戲城房間。

另一位網友用了最大24k預算,讓2.5 Flash設計出了一個《創:戰紀》風格的遊戲。

提示:Create Design a visually striking Tron-style game in a single HTML file, where AI-controlled light cycles compete in fast-paced, strategic battles against each other

如今Claude 3.7已經完全沒有優勢了,在設計登入界面時,Gemini 2.5 Flash用時最短速度最快。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10