消息稱OpenAI正開發雙向語音模型:對話被打斷照樣跟你繼續聊,體驗「更像人」

IT之家
03/05

IT之家 3 月 5 日消息,今天晚間,據 The Information 報道,OpenAI 正在開發一種新的語音模型,希望讓用戶與 ChatGPT 的對話更加自然。當用戶在 AI 說話過程中打斷系統時,AI 可以實時調整回應,而不是像現在一樣突然停止。

目前 ChatGPT 的高級語音模式採用回合式對話機制。用戶必須先說完話,AI 纔會處理語音並生成回答。如果用戶在 AI 發言時插入「okay」或「mm-hm」等回應,系統通常會直接停止,而不會繼續像正常對話那樣進行。

OpenAI 正在開發的新模型名為 BiDi(IT之家注:雙向語音模型)。該模型能夠持續處理說話者的語音輸入,因此在被打斷時可以立即調整回應。相比之下,現有語音模型一旦開始生成回答,輸出內容就基本固定,無法再根據新的輸入進行變化。

這項技術仍處於開發階段。一名了解項目情況的人士表示,原型模型在持續對話幾分鐘後容易出現故障,有時甚至會發出不自然的聲音。OpenAI 研究人員原本希望今年第一季度發布 BiDi,而目前最新的發布時間可能推遲到第二季度或更晚

OpenAI 認為,如果語音模型能夠在性能上接近文本模型,AI 的使用範圍將進一步擴大,因為大多數人更習慣與 AI 進行語音交流,而不是輸入文字。

BiDi 模型在客服場景中可能尤其有價值。例如,當顧客與零售商的 AI 客服通話時,如果顧客在對話過程中臨時決定選擇換貨而非退貨,BiDi 模型理論上可以讓 AI 客服順暢調整對話,而不會突然停止或出現混亂。

這名知情人士還表示,BiDi 模型在調用外部工具和應用方面也更靈活。據IT之家了解,OpenAI 此前表示,公司計劃為未來一款主要通過語音交互的 AI 設備改進語音模型,並考慮開發一款智能音箱,通過語音指令即可查看郵件或預訂服務。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10