消息稱OpenAI正開發雙向語音模型：對話被打斷照樣跟你繼續聊，體驗「更像人」

IT之家 3 月 5 日消息，今天晚間，據 The Information 報道，OpenAI 正在開發一種新的語音模型，希望讓用戶與 ChatGPT 的對話更加自然。當用戶在 AI 說話過程中打斷系統時，AI 可以實時調整回應，而不是像現在一樣突然停止。

目前 ChatGPT 的高級語音模式採用回合式對話機制。用戶必須先說完話，AI 纔會處理語音並生成回答。如果用戶在 AI 發言時插入「okay」或「mm-hm」等回應，系統通常會直接停止，而不會繼續像正常對話那樣進行。

OpenAI 正在開發的新模型名為 BiDi（IT之家注：雙向語音模型）。該模型能夠持續處理說話者的語音輸入，因此在被打斷時可以立即調整回應。相比之下，現有語音模型一旦開始生成回答，輸出內容就基本固定，無法再根據新的輸入進行變化。

這項技術仍處於開發階段。一名了解項目情況的人士表示，原型模型在持續對話幾分鐘後容易出現故障，有時甚至會發出不自然的聲音。OpenAI 研究人員原本希望今年第一季度發布 BiDi，而目前最新的發布時間可能推遲到第二季度或更晚。

OpenAI 認為，如果語音模型能夠在性能上接近文本模型，AI 的使用範圍將進一步擴大，因為大多數人更習慣與 AI 進行語音交流，而不是輸入文字。

BiDi 模型在客服場景中可能尤其有價值。例如，當顧客與零售商的 AI 客服通話時，如果顧客在對話過程中臨時決定選擇換貨而非退貨，BiDi 模型理論上可以讓 AI 客服順暢調整對話，而不會突然停止或出現混亂。

這名知情人士還表示，BiDi 模型在調用外部工具和應用方面也更靈活。據IT之家了解，OpenAI 此前表示，公司計劃為未來一款主要通過語音交互的 AI 設備改進語音模型，並考慮開發一款智能音箱，通過語音指令即可查看郵件或預訂服務。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

消息稱OpenAI正開發雙向語音模型：對話被打斷照樣跟你繼續聊，體驗「更像人」

熱議股票