AI有嘴了!OpenAI連發三語音模型

字母榜
05/08

昨天凌晨,OpenAI發布了三款音頻模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

OpenAI官網的表述是,新模型可以讓開發者構建能在用戶說話時「推理、翻譯和轉寫」的實時語音產品。三款模型已經開放給開發者測試。

這次更新的重點在於三款模型不同場景分工。

GPT-Realtime-2面向實時語音Agent場景,它是OpenAI首個具備「GPT-5級推理」的語音模型,可以處理複雜請求,調用工具,處理中途打斷,並在更長語音會話中維持上下文。

GPT-Realtime-Translate面向實時語音翻譯場景,支持70多種輸入語言到13種輸出語言。

GPT-Realtime-Whisper面向實時語音轉寫,可以在人說話時生成文本,用於字幕、會議記錄和工作流更新。

價格也同步公布。GPT-Realtime-2按token計費,音頻輸入起價為32美元/百萬token,音頻輸出為64美元/百萬token;GPT-Realtime-Translate按分鐘計費,價格為0.034美元/分鐘;GPT-Realtime-Whisper同樣按分鐘計費,價格為0.017美元/分鐘。

相關報道顯示,一些企業用戶包括Zillow、Priceline和德國電信在內的知名廠商已經在測試這些模型。

這是OpenAI過去一年語音路線的一次延伸。

2024年,OpenAI先把ChatGPT高級語音模式背後的低延遲語音能力開放給開發者;2025年8月,OpenAI推出首個正式版Gpt-Realtime,開始面向生產級語音Agent。

今年2月,Gpt-Realtime-1.5成為上一代主力模型,用於語音Agent和客服場景。再到今天的2.0版本的三大模型矩陣,這更像Realtime產品線從體驗功能走向企業API的一次版本升級。

01

從對話走向執行

先來看GPT-Realtime-2,按照OpenAI官方的說法,這是第一款具備「GPT-5級推理」的語音模型。這個模型被設計用於處理複雜請求、調用工具、處理中斷,並在更長的語音會話裏保持上下文。

這些能力對應的是語音Agent落地時最常見的問題。

GPT-Realtime-2把上下文窗口從32K提升到128K。這個參數對長會話場景有直接意義。比如一個用戶想要針對某套房產做諮詢、或者想要改簽機票,這些場景都可能包含大量條件和多輪確認。

上下文窗口擴大後,模型可以在更長的實時對話裏保留前面出現過的限制、偏好和業務信息。

工具調用也是這次更新裏的關鍵詞。RealtimeAPI可以用於構建會調用工具的語音體驗。應用可以保持實時會話連接,連續發送音頻,接收模型事件,更新會話狀態,並把外部系統返回的結果再交給模型繼續回應。

美國房地產信息查詢網站Zillow,成為了OpenAI官方的首批企業案例。

OpenAI在官網中提到,Zillow正在用GPT-Realtime-2構建可以理解住房條件並安排看房的語音助手。Zillow方面表示,在最困難的對抗性測試中,經過prompt優化後,電話任務成功率從69%提升到95%,FairHousing相關合規表現也更穩定。

Fair Housing指美國住房交易中的反歧視合規要求,房產平台不能在買賣、租賃、貸款或經紀服務中,基於種族、宗教、性別、殘障、家庭狀況、國籍等因素區別對待用戶。

從「能說」到「會說」,這可能是GPT-Realtime-2給予行業的最大震撼。

Booking子公司、知名旅行優惠平台Priceline,則代表另一類語音模型的落地場景。

據了解,Priceline也在測試GPT-Realtime-2系列。旅遊預訂的鏈條很長,用戶可能要查航班、訂酒店、調整日期、處理延誤、比較價格,還可能在境外需要翻譯。語音Agent如果能穩定接入後台系統,就有機會把「問答」推進到「辦事」。

OpenAI提到的另一個已知客戶是德國電信。電信行業有大規模坐席、複雜套餐、故障處理、多語言服務和賬單解釋,也是語音模型落地的天然場景。

GPT-Realtime-2還有一個細節是可調推理強度。

OpenAI開發者文檔提到,GPT-Realtime-2把推理能力帶入語音到語音工作流。多數生產場景可以先使用較低的推理強度,優先保證通話裏的響應速度;遇到更復雜的客服、預訂、排障任務,再提高推理強度,用更多計算換取更完整的判斷。

這個細節很重要。語音交互比文字聊天更怕停頓。用戶在電話裏等待一兩秒,會明顯感到卡頓。推理越強,延遲壓力越大。在性能和響應的平衡上,不同的開發者在這個問題上會有一定取捨。。

官方也給出了一些測試數據。OpenAI稱,GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。這兩個指標用於衡量模型在音頻輸入、多輪語音、複雜指令和上下文整合方面的能力。

第二款模型是GPT-Realtime-Translate。

按OpenAI面向開發者的示例說明,GPT-Realtime-Translate主打實時語音到語音翻譯,適合廣播、直播、電話和視頻對話。它會自動識別輸入語言,並輸出翻譯後的語音和文本。開發者只需要設定目標語言。

這個模型支持70多種輸入語言到13種輸出語言。OpenAI稱,它可以在說話人講話時跟上節奏。開發者文檔還提到,傳統語音翻譯常常要求說話人停頓,系統等一句話結束後再翻譯;而GPT-Realtime-Translate更接近連續口譯的形態。

OpenAI把它的場景分成兩類。

一類是廣播式翻譯,比如直播、網絡研討會、講座、財報電話會和大型會議演講。另一類是對話式翻譯,比如呼叫中心、視頻通話和電話工作流。這兩個類別基本覆蓋了企業最願意付費的跨語言場景:客服、教育、國際會議、內容平台、跨境銷售和企業培訓。

第三款模型是GPT-Realtime-Whisper。

GPT-Realtime-Whisper強調實時流式轉寫。它可以在說話人講話時生成字幕、會議記錄和工作流更新。相比起前兩個模型,Whisper的商業門檻最低。它的價格僅為0.017美元/分鐘。

三款模型放在一起看,OpenAI已經把實時音頻拆成了三個明確入口:GPT-Realtime-2處理語音Agent,GPT-Realtime-Translate處理跨語言溝通,GPT-Realtime-Whisper處理實時文本化。

三者的價格、延遲要求和客戶場景都不同,奧特曼想要在差異化路線上「通喫」語音AI市場。

02

TTS市場卷完「聲音質量」卷「實時」

這次發布還有一個很清楚的商業信號:OpenAI正在把語音AI能力,全面推向API市場和企業工作流。

除了OpenAI官方提到的Zillow、Priceline和德國電信三大測試客戶,更多公司也在把這批語音模型接進自己的產品。

比如視頻平台Vimeo、企業知識管理工具Glean、客服軟件公司Intercom,以及面向企業語音Agent的BolnaAI,都出現在目前披露的相關案例中。

換句話說,GPT-Realtime系列已經成為了OpenAI的一個成熟的商業化版圖,客戶覆蓋內容平台、企業辦公、客服系統和語音Agent創業公司等多類開發者。

OpenAI展示的是一組真實業務中的場景:AI在通話中理解需求、調用系統、翻譯語言,並把語音交互接進企業後台。

而這一切,正好發生在語音AI市場繼續升溫的周期裏。

過去兩年,語音AI賽道最受關注的公司之一是ElevenLabs。這家公司2022年成立,最早靠高度擬真的AI配音、聲音克隆、多語言配音和內容本地化出圈,後來又把產品往企業語音Agent延伸。今年2月,ElevenLabs宣佈完成5億美元D輪孖展,估值達到110億美元。

這一估值較2025年1月的33億美元大幅上升。公司稱,這筆資金將用於全球擴張,並繼續投入情感化對話模型、配音、轉寫和AI語音Agent等方向。

更近的動態是,ElevenLabs在近期披露,公司年化經常性收入已經超過5億美元,並公布了更多參與D輪孖展的新投資方。

其中既包括貝萊德、惠靈頓管理等大型機構,也包括英偉達賽富時創投、德國電信等產業方。甚至演員Jamie Foxx、Eva Longoria以及《魷魚遊戲》創作者黃東赫等個人投資者,也出現在這輪投資名單中。

面對着日益增長的需求,語音AI已經不只是創作者的配音工具。影視、廣告、遊戲、教育、企業培訓、無障礙服務、內容出海和電話Agent,都在消耗更自然、更便宜、更可控的機器聲音。

Deepgram代表另一種路線。

這家公司長期做語音識別基礎設施,客戶更多來自聯絡中心、會議、銷售、醫療、金融等高頻語音場景。近年,Deepgram開始補上文本轉語音和語音Agent接口,試圖打通語音模型的辦事場景。

Deepgram披露的信息顯示,旗下Aura-2文本轉語音面向實時語音應用,流式延遲低於200毫秒,並支持對地址、電話號碼、字母數字組合等結構化內容做更自然的朗讀。

它還把語音識別、語音合成、實時情緒分析、話題檢測和摘要能力,放進聯絡中心等企業場景。

Cartesia則主打低延遲和實時交互。

這家公司由前斯坦福AI實驗室成員創辦,技術標籤是狀態空間模型,主打更快、更低成本的實時多模態模型。

它的語音產品Sonic系列,核心賣點是低延遲文本轉語音。Cartesia的Sonic 3文檔稱,它是一個流式文本轉語音模型,強調高自然度、準確跟隨文本和低延遲;Sonic 3支持42種語言,也支持音量、語速和情緒控制。

在Cartesia官網上,可以看到這家公司把90毫秒低延遲作為實時對話體驗的賣點。

這些公司共同推動了TTS市場的變化。

早期TTS競爭主要看聲音像不像真人。之後,行業開始比多語言覆蓋、聲音克隆、情緒表達、版權授權和配音效率。

現在,語音Agent把要求抬高了。企業不只要一個好聽的聲音,還要完整鏈路:語音識別要準,首字延遲要低,大模型要能理解上下文,工具調用要穩定,語音合成要自然,翻譯要連續,轉寫還要能進入後續工作流。

一些行業材料也反映了這個趨勢。Deepgram在TTS對比文章中提到,面向語音Agent的文本轉語音,已經把「首段語音生成低於100毫秒」視為新的基線之一。

在行業內都在競相卷「實時」的背景下,OpenAI最大的優勢來自模型棧。

OpenAI可以把整個企業調用TTS的鏈路,放到同一個開發者平台裏。對開發者來說,少接幾個供應商,就少一些延遲、集成和運維成本。對企業來說,統一平台也更容易做權限管理、日誌留存、數據策略和安全審查。

不過,OpenAI想要通喫企業語音市場,也沒那麼容易。

ElevenLabs已跑到110億美元估值、超過5億美元年化收入;Deepgram今年1月完成1.3億美元孖展,估值13億美元,服務1300多家客戶;Cartesia也在2025年完成6400萬美元A輪孖展,Sonic模型據稱已有1萬多客戶使用,並以90毫秒模型延遲、42種語言主打實時語音。

OpenAI有模型棧優勢,但語音市場並不缺少強勢玩家。

奧特曼對這次發布的公開表態很短。他在X上稱,GPT-Realtime-2進入API是「相當大的一步前進」,同時OpenAI還在繼續改進ChatGPT裏的語音體驗。

只是從各大企業用戶爭相測試的情況來看,OpenAI的新一代語音模型,足以讓人期待他在接下來這一年的市場表現。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10