消息称OpenAI正开发双向语音模型：对话被打断照样跟你继续聊，体验“更像人”

IT之家 3 月 5 日消息，今天晚间，据 The Information 报道，OpenAI 正在开发一种新的语音模型，希望让用户与 ChatGPT 的对话更加自然。当用户在 AI 说话过程中打断系统时，AI 可以实时调整回应，而不是像现在一样突然停止。

目前 ChatGPT 的高级语音模式采用回合式对话机制。用户必须先说完话，AI 才会处理语音并生成回答。如果用户在 AI 发言时插入“okay”或“mm-hm”等回应，系统通常会直接停止，而不会继续像正常对话那样进行。

OpenAI 正在开发的新模型名为 BiDi（IT之家注：双向语音模型）。该模型能够持续处理说话者的语音输入，因此在被打断时可以立即调整回应。相比之下，现有语音模型一旦开始生成回答，输出内容就基本固定，无法再根据新的输入进行变化。

这项技术仍处于开发阶段。一名了解项目情况的人士表示，原型模型在持续对话几分钟后容易出现故障，有时甚至会发出不自然的声音。OpenAI 研究人员原本希望今年第一季度发布 BiDi，而目前最新的发布时间可能推迟到第二季度或更晚。

OpenAI 认为，如果语音模型能够在性能上接近文本模型，AI 的使用范围将进一步扩大，因为大多数人更习惯与 AI 进行语音交流，而不是输入文字。

BiDi 模型在客服场景中可能尤其有价值。例如，当顾客与零售商的 AI 客服通话时，如果顾客在对话过程中临时决定选择换货而非退货，BiDi 模型理论上可以让 AI 客服顺畅调整对话，而不会突然停止或出现混乱。

这名知情人士还表示，BiDi 模型在调用外部工具和应用方面也更灵活。据IT之家了解，OpenAI 此前表示，公司计划为未来一款主要通过语音交互的 AI 设备改进语音模型，并考虑开发一款智能音箱，通过语音指令即可查看邮件或预订服务。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

消息称OpenAI正开发双向语音模型：对话被打断照样跟你继续聊，体验“更像人”

Most Discussed