你有想象过喜欢的UP主说英语的样子吗?B站上线AI原声翻译功能,基于自研模型

IT之家
Aug 06, 2025

IT之家 8 月 6 日消息,Bilibili Index 团队于 8 月 4 日发布博文,宣布通过自研 IndexTTS2 模型,推出“原声风格”视频配音功能,可以支持将部分中文视频翻译为外语的原声风格配音。

IT之家此前曾介绍该功能上线,而在最新博文介绍中,官方介绍了该功能背后的 AI 模型。

该团队表示通过该自研模型,让视频人物不再是千篇一律的“代言人声线”,而是像本人亲自讲外语一样自然,声音、语气、节奏,甚至个性表达都和原片几乎一致,观众可以听到“这个人用另一种语言在说话”。

BILIBILI IndexTTS2 模型架构

该模型创新性地提出了一种通用于 AR 系统的“时间编码”机制,首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时,也具备了合成定长语音的能力。

团队还推出通过音色克隆、声场一致性、多声源融合等技术,解决了传统配音中声音人格缺失、字幕干扰及本地化成本高等痛点。

系统还针对多说话人场景优化说话人分割、情绪迁移与语速控制,并引入 RIVAL 对抗式强化学习框架提升翻译质量与风格适配度。

在视频层面,结合字幕擦除与基于 Diffusion 的高保真唇形同步,确保音画一致与沉浸感。B站表示,未来将支持更多语言,并计划开源模型,推动多语言、跨模态内容全球化传播。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10