OpenAI周二推出旗下迄今能力最強的兩款小型模型GPT-5.4 mini與GPT-5.4 nano,以更低延遲和更低成本大幅縮小與旗艦模型的性能差距。
GPT-5.4 mini在編程、推理、多模態理解及工具調用等核心維度全面超越上一代GPT-5 mini,運行速度提升逾2倍,並在SWE-Bench Pro等基準測試中接近體量更大的GPT-5.4。
GPT-5.4 nano則定位成本最低、延遲最短的輕量選項,僅通過API向開發者開放,專為數據分類、提取及簡單編程子任務設計。

兩款模型的推出,意在填補大模型在實時交互場景中因延遲過高而難以落地的空白,直接影響覆蓋編程助手、AI代理系統及多模態應用等快速增長的商業市場。
mini面向消費端,nano專屬API
GPT-5.4 mini今日起在OpenAI API、Codex平台及ChatGPT三大渠道同步上線。
GPT-5.4 mini的API定價為每百萬輸入token 0.75美元、每百萬輸出token 4.50美元,支持文本與圖像輸入、工具調用、函數調用、網頁搜索、文件檢索、計算機操控及技能擴展,上下文窗口達40萬token。
在Codex平台,GPT-5.4 mini僅消耗GPT-5.4配額的30%,開發者處理簡單編程任務的成本約降至旗艦模型的三分之一。Codex還支持將工作量委派給以GPT-5.4 mini運行的子智能體,使推理密度較低的任務自動落入更廉價的模型。
在ChatGPT端,Free與Go用戶可通過"+"菜單選擇"Thinking"功能使用GPT-5.4 mini;其餘付費用戶在GPT-5.4 Thinking觸達速率上限後,該模型將作為自動降級備選項啓用。
GPT-5.4 nano目前僅通過API供開發者調用,定價為每百萬輸入token 0.20美元、每百萬輸出token 1.25美元,為兩款新模型中定價最低者。OpenAI表示,nano適合由高階模型統籌調度、負責處理次要支撐任務的子智能體場景。

mini逼近旗艦,nano超越前代
從OpenAI公布的評測數據來看,GPT-5.4 mini在編程及多模態任務上的表現尤為突出。
在編程基準SWE-bench Pro上,mini得分54.4%,與GPT-5.4的57.7%差距收窄至3.3個百分點,遠高於GPT-5 mini的45.7%。

在計算機操控基準OSWorld-Verified上,mini以72.1%逼近GPT-5.4的75.0%,並大幅領先GPT-5 mini的42.0%。

工具調用能力方面,GPT-5.4 mini在τ2-bench電信測試中得分93.4%,較GPT-5 mini的74.1%提升顯著。在通用智能測試GPQA Diamond中,mini得分88.0%,nano亦達82.8%,均超越GPT-5 mini的81.6%。

值得關注的是,GPT-5.4 nano在部分視覺任務中表現落後於GPT-5 mini,OSWorld-Verified得分39.0%低於後者的42.0%。但在編程及工具調用類任務上,nano仍較前代實現明顯提升。

OpenAI表示,nano的設計優先級在於低延遲與低成本,而非全面性能,開發者在選型時需結合具體任務權衡取捨。
子智能體架構,多模型協作成產品設計新範式
OpenAI在發布材料中着重強調了兩款新模型在多模型分層系統中的位置。
以其自研編程助手Codex為例,GPT-5.4負責規劃、協調與最終判斷,而GPT-5.4 mini子智能體則並行處理代碼庫檢索、大文件審閱及輔助文檔處理等粒度更細的子任務。
OpenAI表示,隨着小型模型速度更快、功能更強大,開發者無需使用單一模型處理所有任務,而是可以構建系統,由大型模型負責決策,小型模型則快速大規模地執行任務。OpenAI稱:
GPT-5.4 mini 是我們迄今為止針對這種工作流程最強大的小型模型。
這一架構對高併發的工作尤為關鍵,在編程助手、截圖解析及實時圖像理解等場景中,響應延遲直接影響產品體感,最優選擇往往不是能力最強的模型,而是能夠在速度、工具可靠性與任務表現之間取得最佳平衡的模型。
對開發者而言,GPT-5.4 mini與nano的發布意味着在不犧牲系統整體智能水平的前提下,大幅壓降推理成本的路徑進一步清晰。