微軟發佈 DragonV2.1 模型,AI 轉錄語音更自然、更富表現力

市場資訊
昨天

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:IT之家)

IT之家 7 月 31 日消息,科技媒體 NeoWin 今天(7 月 31 日)發佈博文,報道稱微軟推出了 DragonV2.1Neural 零次學習(Zero-Shot Learning)模型,僅憑少量數據就能創建更加自然、表現力強的聲音,並支持超過 100 種語言。

IT之家援引博文介紹,這是一種零次學習的文本到語音(TTS)模型,承諾提供更加自然和富有表現力的聲音,並提高了發音的準確性以及增強了可控性。

新模型僅需幾秒鐘的語音樣本即可合成超過 100 種語言的語音。相比之下,之前的 DragonV1 模型在處理專有名詞時存在發音問題。DragonV2.1 模型可以應用於多種不同場景,包括定製聊天機器人聲音和爲視頻內容跨多語言配音。

微軟表示,DragonV2.1 提高發音準確性,與 DragonV1 相比,該模型單詞錯誤率(WER)平均降低了 12.8%。

該模型還提升了聲音的自然度,用戶使用此模型時,可以利用 SSML 音素標籤和自定義詞典對發音和口音進行細緻控制。爲了幫助用戶入門,微軟構建了 Andrew、Ava 和 Brian 等多個聲音檔案,供用戶測試。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10