AI有嘴了!OpenAI连发三语音模型

字母榜
May 08

昨天凌晨,OpenAI发布了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

OpenAI官网的表述是,新模型可以让开发者构建能在用户说话时“推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试。

这次更新的重点在于三款模型不同场景分工。

GPT-Realtime-2面向实时语音Agent场景,它是OpenAI首个具备“GPT-5级推理”的语音模型,可以处理复杂请求,调用工具,处理中途打断,并在更长语音会话中维持上下文。

GPT-Realtime-Translate面向实时语音翻译场景,支持70多种输入语言到13种输出语言。

GPT-Realtime-Whisper面向实时语音转写,可以在人说话时生成文本,用于字幕、会议记录和工作流更新。

价格也同步公布。GPT-Realtime-2按token计费,音频输入起价为32美元/百万token,音频输出为64美元/百万token;GPT-Realtime-Translate按分钟计费,价格为0.034美元/分钟;GPT-Realtime-Whisper同样按分钟计费,价格为0.017美元/分钟。

相关报道显示,一些企业用户包括Zillow、Priceline和德国电信在内的知名厂商已经在测试这些模型。

这是OpenAI过去一年语音路线的一次延伸。

2024年,OpenAI先把ChatGPT高级语音模式背后的低延迟语音能力开放给开发者;2025年8月,OpenAI推出首个正式版Gpt-Realtime,开始面向生产级语音Agent。

今年2月,Gpt-Realtime-1.5成为上一代主力模型,用于语音Agent和客服场景。再到今天的2.0版本的三大模型矩阵,这更像Realtime产品线从体验功能走向企业API的一次版本升级。

01

从对话走向执行

先来看GPT-Realtime-2,按照OpenAI官方的说法,这是第一款具备“GPT-5级推理”的语音模型。这个模型被设计用于处理复杂请求、调用工具、处理中断,并在更长的语音会话里保持上下文。

这些能力对应的是语音Agent落地时最常见的问题。

GPT-Realtime-2把上下文窗口从32K提升到128K。这个参数对长会话场景有直接意义。比如一个用户想要针对某套房产做咨询、或者想要改签机票,这些场景都可能包含大量条件和多轮确认。

上下文窗口扩大后,模型可以在更长的实时对话里保留前面出现过的限制、偏好和业务信息。

工具调用也是这次更新里的关键词。RealtimeAPI可以用于构建会调用工具的语音体验。应用可以保持实时会话连接,连续发送音频,接收模型事件,更新会话状态,并把外部系统返回的结果再交给模型继续回应。

美国房地产信息查询网站Zillow,成为了OpenAI官方的首批企业案例。

OpenAI在官网中提到,Zillow正在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。Zillow方面表示,在最困难的对抗性测试中,经过prompt优化后,电话任务成功率从69%提升到95%,FairHousing相关合规表现也更稳定。

Fair Housing指美国住房交易中的反歧视合规要求,房产平台不能在买卖、租赁、贷款或经纪服务中,基于种族、宗教、性别、残障、家庭状况、国籍等因素区别对待用户。

从“能说”到“会说”,这可能是GPT-Realtime-2给予行业的最大震撼。

Booking子公司、知名旅行优惠平台Priceline,则代表另一类语音模型的落地场景。

据了解,Priceline也在测试GPT-Realtime-2系列。旅游预订的链条很长,用户可能要查航班、订酒店、调整日期、处理延误、比较价格,还可能在境外需要翻译。语音Agent如果能稳定接入后台系统,就有机会把“问答”推进到“办事”。

OpenAI提到的另一个已知客户是德国电信。电信行业有大规模坐席、复杂套餐、故障处理、多语言服务和账单解释,也是语音模型落地的天然场景。

GPT-Realtime-2还有一个细节是可调推理强度。

OpenAI开发者文档提到,GPT-Realtime-2把推理能力带入语音到语音工作流。多数生产场景可以先使用较低的推理强度,优先保证通话里的响应速度;遇到更复杂的客服、预订、排障任务,再提高推理强度,用更多计算换取更完整的判断。

这个细节很重要。语音交互比文字聊天更怕停顿。用户在电话里等待一两秒,会明显感到卡顿。推理越强,延迟压力越大。在性能和响应的平衡上,不同的开发者在这个问题上会有一定取舍。。

官方也给出了一些测试数据。OpenAI称,GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。这两个指标用于衡量模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

第二款模型是GPT-Realtime-Translate。

按OpenAI面向开发者的示例说明,GPT-Realtime-Translate主打实时语音到语音翻译,适合广播、直播、电话和视频对话。它会自动识别输入语言,并输出翻译后的语音和文本。开发者只需要设定目标语言。

这个模型支持70多种输入语言到13种输出语言。OpenAI称,它可以在说话人讲话时跟上节奏。开发者文档还提到,传统语音翻译常常要求说话人停顿,系统等一句话结束后再翻译;而GPT-Realtime-Translate更接近连续口译的形态。

OpenAI把它的场景分成两类。

一类是广播式翻译,比如直播、网络研讨会、讲座、财报电话会和大型会议演讲。另一类是对话式翻译,比如呼叫中心、视频通话和电话工作流。这两个类别基本覆盖了企业最愿意付费的跨语言场景:客服、教育、国际会议、内容平台、跨境销售和企业培训。

第三款模型是GPT-Realtime-Whisper。

GPT-Realtime-Whisper强调实时流式转写。它可以在说话人讲话时生成字幕、会议记录和工作流更新。相比起前两个模型,Whisper的商业门槛最低。它的价格仅为0.017美元/分钟。

三款模型放在一起看,OpenAI已经把实时音频拆成了三个明确入口:GPT-Realtime-2处理语音Agent,GPT-Realtime-Translate处理跨语言沟通,GPT-Realtime-Whisper处理实时文本化。

三者的价格、延迟要求和客户场景都不同,奥特曼想要在差异化路线上“通吃”语音AI市场。

02

TTS市场卷完“声音质量”卷“实时”

这次发布还有一个很清楚的商业信号:OpenAI正在把语音AI能力,全面推向API市场和企业工作流。

除了OpenAI官方提到的Zillow、Priceline和德国电信三大测试客户,更多公司也在把这批语音模型接进自己的产品。

比如视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom,以及面向企业语音Agent的BolnaAI,都出现在目前披露的相关案例中。

换句话说,GPT-Realtime系列已经成为了OpenAI的一个成熟的商业化版图,客户覆盖内容平台、企业办公、客服系统和语音Agent创业公司等多类开发者。

OpenAI展示的是一组真实业务中的场景:AI在通话中理解需求、调用系统、翻译语言,并把语音交互接进企业后台。

而这一切,正好发生在语音AI市场继续升温的周期里。

过去两年,语音AI赛道最受关注的公司之一是ElevenLabs。这家公司2022年成立,最早靠高度拟真的AI配音、声音克隆、多语言配音和内容本地化出圈,后来又把产品往企业语音Agent延伸。今年2月,ElevenLabs宣布完成5亿美元D轮融资,估值达到110亿美元。

这一估值较2025年1月的33亿美元大幅上升。公司称,这笔资金将用于全球扩张,并继续投入情感化对话模型、配音、转写和AI语音Agent等方向。

更近的动态是,ElevenLabs在近期披露,公司年化经常性收入已经超过5亿美元,并公布了更多参与D轮融资的新投资方。

其中既包括贝莱德、惠灵顿管理等大型机构,也包括英伟达赛富时创投、德国电信等产业方。甚至演员Jamie Foxx、Eva Longoria以及《鱿鱼游戏》创作者黄东赫等个人投资者,也出现在这轮投资名单中。

面对着日益增长的需求,语音AI已经不只是创作者的配音工具。影视、广告、游戏、教育、企业培训、无障碍服务、内容出海和电话Agent,都在消耗更自然、更便宜、更可控的机器声音。

Deepgram代表另一种路线。

这家公司长期做语音识别基础设施,客户更多来自联络中心、会议、销售、医疗、金融等高频语音场景。近年,Deepgram开始补上文本转语音和语音Agent接口,试图打通语音模型的办事场景。

Deepgram披露的信息显示,旗下Aura-2文本转语音面向实时语音应用,流式延迟低于200毫秒,并支持对地址、电话号码、字母数字组合等结构化内容做更自然的朗读。

它还把语音识别、语音合成、实时情绪分析、话题检测和摘要能力,放进联络中心等企业场景。

Cartesia则主打低延迟和实时交互。

这家公司由前斯坦福AI实验室成员创办,技术标签是状态空间模型,主打更快、更低成本的实时多模态模型。

它的语音产品Sonic系列,核心卖点是低延迟文本转语音。Cartesia的Sonic 3文档称,它是一个流式文本转语音模型,强调高自然度、准确跟随文本和低延迟;Sonic 3支持42种语言,也支持音量、语速和情绪控制。

在Cartesia官网上,可以看到这家公司把90毫秒低延迟作为实时对话体验的卖点。

这些公司共同推动了TTS市场的变化。

早期TTS竞争主要看声音像不像真人。之后,行业开始比多语言覆盖、声音克隆、情绪表达、版权授权和配音效率。

现在,语音Agent把要求抬高了。企业不只要一个好听的声音,还要完整链路:语音识别要准,首字延迟要低,大模型要能理解上下文,工具调用要稳定,语音合成要自然,翻译要连续,转写还要能进入后续工作流。

一些行业材料也反映了这个趋势。Deepgram在TTS对比文章中提到,面向语音Agent的文本转语音,已经把“首段语音生成低于100毫秒”视为新的基线之一。

在行业内都在竞相卷“实时”的背景下,OpenAI最大的优势来自模型栈。

OpenAI可以把整个企业调用TTS的链路,放到同一个开发者平台里。对开发者来说,少接几个供应商,就少一些延迟、集成和运维成本。对企业来说,统一平台也更容易做权限管理、日志留存、数据策略和安全审查。

不过,OpenAI想要通吃企业语音市场,也没那么容易。

ElevenLabs已跑到110亿美元估值、超过5亿美元年化收入;Deepgram今年1月完成1.3亿美元融资,估值13亿美元,服务1300多家客户;Cartesia也在2025年完成6400万美元A轮融资,Sonic模型据称已有1万多客户使用,并以90毫秒模型延迟、42种语言主打实时语音。

OpenAI有模型栈优势,但语音市场并不缺少强势玩家。

奥特曼对这次发布的公开表态很短。他在X上称,GPT-Realtime-2进入API是“相当大的一步前进”,同时OpenAI还在继续改进ChatGPT里的语音体验。

只是从各大企业用户争相测试的情况来看,OpenAI的新一代语音模型,足以让人期待他在接下来这一年的市场表现。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10