
編輯:桃子 好睏
【新智元導讀】谷歌發布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考預算」,可靈活控制推理深度,性能一舉擊敗Claude 3.7,比肩o4-mini。而且,關閉思考模式成本直降600%。
啱啱,谷歌重磅發布首個混合推理模型——Gemini 2.5 Flash。
與Claude類似,新模型的「思考預算」可以自定義,即可開啓/關閉Gemini 2.5的思考模式。

值得一提的是,關閉思考的成本直接暴降600%,而且性能還不輸Gemini 2.0 Flash。
具體來說,Gemini 2.5 Flash關閉思考輸出價格0.6美元/百萬token,開啓思考輸出價格3.5美元/百萬token。

當然了,思考越久,模型性能也會隨之提升。
在GPQA知識問答中,新模型24k思考預算,性能提升了6%;對於代碼任務(LiveCodeBench),16k思考預算性能最佳。
|
|
在多項基準測試中,Gemini 2.5 Flash再次刷新SOTA。在大模型排行榜中,Flash預覽版以1392 ELO高分位居第二,與GPT-4.5-preview、Grok 3並駕齊驅。

在數學(AIME 2025/2024)、多模態推理(MMMU)、知識問答(GPQA)等基準上,Gemini 2.5 Flash完全碾壓Claude 3.7 Sonnet,足以與最新o4-mini相媲美。
就模型每百萬token輸入/輸出價格來看,Gemini 2.5 Flash更具性價比。

在人類最後一次考試中,Gemini 2.5 Flash拿下12.1%高分,僅次於o4-mini
目前,Flash預覽版可以在Gemini中使用,API同時向開發者開放。
首款混合推理Gemini登場
擊敗Claude 3.7
混合推理模型,就是專為需要在性能、成本、延遲之間找到完美平衡的開發者而設計。
Gemini 2.5 Flash不僅繼承了2.0 Flash的高速響應特點,還引入了革命性的「思考模式」——可根據任務需求靈活調整推理深度。

Gemini 2.5系是「思考模型」,能夠在回答前先行推理。
模型不會立即輸出結果,而是先執行「思考」流程,更好地理解提示詞,拆解複雜任務並規劃回答。
如下圖所示,相較於2.0 Flash,Gemini 2.5 Flash在複雜任務,如數學推理、科研分析中表現更優異。

在LMArena其他評估中,比如Hard Prompts、編碼、長查詢,Gemini 2.5 Flash全部拿下第一。

另外從下圖中可看出,在同類模型中,2.5 Flash以超高性價比領跑,兼具最優性能和極低成本的優勢。


網友實測
在網友的實測中,2.5 Flash物理模擬能力足夠驚豔,小球會隨着多邊形變化精準運動。


而且,2.5 Flash還輕輕鬆鬆通過了4o-mini/o3無法通過的Galton Board(高爾頓板)測試。


它還能根據精靈圖,創建出自定義遊戲城房間。

另一位網友用了最大24k預算,讓2.5 Flash設計出了一個《創:戰紀》風格的遊戲。

提示:Create Design a visually striking Tron-style game in a single HTML file, where AI-controlled light cycles compete in fast-paced, strategic battles against each other
如今Claude 3.7已經完全沒有優勢了,在設計登入界面時,Gemini 2.5 Flash用時最短速度最快。


