AI同傳2.8秒延遲,阿里通義千問發布實時語音翻譯模型Qwen3.5-LiveTranslate

IT之家
05/20

IT之家 5 月 20 日消息,據通義實驗室消息,通義千問團隊發布了 Qwen3.5-LiveTranslate-Flash 實時語音翻譯模型,該模型在語種覆蓋、延遲控制和音色保留等方面實現顯著突破,旨在解決跨境直播、跨國會議等場景中的實時同傳痛點。

IT之家附官方詳細介紹如下:

跨境直播卡頓、跨國會議延遲、AI 配音「機器感」太重…… 實時同傳一直卡在「延遲、語種、音色」三大痛點。

Qwen3.5-LiveTranslate-Flash 給出了解決方案:支持 60 種語言的音頻輸入和文字輸出,29 種語言的音頻輸出,端到端字均延遲低至 2.8 秒,還能保留說話人的原聲特徵。

核心亮點速覽

Qwen3.5-LiveTranslate

輸入音頻和輸出文本語種從 18 種提升至 60 種,輸出音頻從 10 種提升至 29 種;

語音同傳字均延遲降低至 2.8 秒;

支持實時音色克隆,翻譯後仍保留說話人原聲特徵;

內置熱詞能力,專有名詞和行業術語翻譯更精準。

Qwen3.5-LiveTranslate 能聽懂和翻譯 60 種語言,其中 29 種可以實現語音輸出。輸入音頻和輸出文本語種從 18 個大幅提升至 60 個,輸出音頻語向從 10 個提升至 29 個,覆蓋更多國家與區域的語言互譯組合,滿足跨境會議、直播出海、在線課堂、商務談判等多語同傳需求。

引入全新 Readable Unit(可讀單元)實時翻譯技術,在保證譯文可讀性與語義連貫的前提下,實現更激進的流式輸出。端到端字均延遲降低到 2.8 秒,適用於直播、連麥、發布會等對時延極敏感的場景。

支持 Real-time Voice Cloning(動態跨語言音色克隆)。在同傳過程中自動捕捉並復刻說話人音色特徵,譯文在不同語言間依舊保持「同一個人」的聲音質感與情緒表現力。主播、嘉賓、主持人的身份一致性大幅提升,沉浸感拉滿。

內置動態熱詞(Hotword)引擎,最高支持 1000 個自定義詞條。對人名、地名、品牌、產品型號、行業術語進行優先識別與優先翻譯。支持場景動態配置與實時更新,顯著降低技術發布會、醫療 / 法律 / 金融會議、企業內訓中「術語翻錯、名字聽錯」的風險。

我們將模型放入高頻實戰環境,複雜場景依舊穩定發揮:

跨國會議 & 出境旅遊

多語混說 / 複雜口音:會議室多語種交替發言、帶口音表達,模型精準切分並同步譯。

智能硬件落地:搭配千問 AI 眼鏡在泰國點餐實測,語音交互 + 實時同傳無縫銜接,溝通零障礙。

直播帶貨 & 影視出海

數字與規格精準翻譯:直播連麥中,商品參數、價格、折扣數字翻譯準確率極高,帶貨宣發不斷檔。

古文 / 文化內容同傳:準確理解並翻譯古典文言文,語義連貫且保留文化韻味,字幕與配音同步流暢。

視覺消歧輔助

結合多模態理解能力,在語境模糊時自動引入視覺信息輔助判斷,大幅降低「一詞多義」導致的翻譯歧義。

在公開多語言語音翻譯基準(FLEURS、CoVoST2)上,Qwen3.5-LiveTranslate-Flash 翻譯準確率優於當前主流語音大模型,顯著優於前代 Qwen3-LiveTranslate-Flash,在語言覆蓋和翻譯質量上均實現突破。

憑藉可讀單元流式策略,Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 將首字延遲降低 3.45 秒、字均延遲降低 1.88 秒,最終實現端到端字均延遲 2.8 秒,翻譯質量幾乎無損。

相比上一代,Qwen3.5-LiveTranslate-Flash 在覈心參數與功能上實現了全面進階,詳細對比如下:

Qwen3.5-LiveTranslate 是基於 Qwen3.5-Omni Thinker-Talker 架構打造的翻譯大模型。面向同聲傳譯場景,我們採用 chunk-wise 流式輸入機制,引入可讀單元來控制語音合成粒度,在保證同傳體感的同時有效降低時延。此外,藉助動態跨語言音色克隆技術,模型在翻譯時能夠實時識別並模仿說話人的原始音色。

從「能翻譯」到「實時同傳」,Qwen3.5-LiveTranslate-Flash 用更低延遲、更多語種、更自然音色,為跨境協作、內容出海、智能硬件提供新一代語音基礎設施。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10