进入全球第一梯队!京东(09618)开源JoyAI-Echo框架 长视频生成“所想即所得”时代到来

智通财经网
Jun 03

智通财经APP获悉,6月3日,京东(09618)宣布开源JoyAI-Echo长音视频生成框架。JoyAI-Echo解决了行业三大痛点:角色难稳定一致、音色变化难控制、视频生成速度慢,实现了长视频生成“又快又好”。此外,JoyAI-Echo的“边聊边改”模式,让视频创作从 "静态生成" 变成 "动态协作"。

JoyAI-Echo在各类视频创作、数字人直播、品牌营销、教育和游戏内容生产等领域有巨大的应用潜力,它的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。

四大技术创新 解决长视频生成三大难题

在AI视频领域,十几秒短视频的生成质量越来越成熟,但行业头疼的瓶颈依然存在:难以向分钟级长视频突破。AI视频一但拉到这一时长,就会出现以下问题:同一个角色,在不同镜头里长得不一样;说话人的音色忽高忽低甚至突然变声;生成速度慢到离谱,等几分钟甚至半小时才能出结果。

以上问题,直接导致 AI 长视频停留在 "玩具" 阶段,很难真正投入生产、创造价值。JoyAI-Echo 的出现,彻底打破这个僵局。JoyAI-Echo 有四项技术创新:

一是跨模态音视频记忆库,让角色再也不 "变脸"。这也是JoyAI-Echo 最关键的突破。模型框架内置了一个专门的记忆库,能在多镜头生成过程中,持续保存并调用角色的外观特征和说话人音色信息。在长达 5 分钟的视频里,角色身份、视觉形象和声音音色都能保持高度一致,再也不会出现 "同一个人演着演着变成另一个人" 的尴尬情况。

二是记忆驱动后训练,速度直接提升 7.5 倍。研发团队创新提出了记忆驱动后训练流程,结合 SFT、跨模态 RLHF 和 Distribution Matching Distillation(DMD)技术,大幅提升了生成质量,更实现了惊人的推理加速。

其中,仅 DMD 一项技术就带来了约 7.5 倍的速度提升,让长视频生成从 "等半天" 变成 "秒出片"。

三是加入智能 "导演助理"——Director Agent,让长视频第一次实现 "对话式编辑"。JoyAI-Echo 不再是 "输入提示词,一次性出结果" 的传统工具。你用自然语言说需求,它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意,直接用对话的方式告诉它修改,它只重新生成有问题的局部镜头,不用重跑整条视频,让长视频创作从 "静态生成" 变成了 "动态协作"。

四是轻量化实时超分,高清输出不卡顿。为了满足专业内容生产的需求,JoyAI-Echo 配套了专门的实时超分模块,支持两档分辨率提升(736×1280 → 1152×1920,736×1280 → 1472×2560)。模块通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现。

各项指标全面领先行业 “AI 长视频时代"到来

为了客观评估 JoyAI-Echo 的性能,研发团队基于 100 个故事、3000 个镜头构建了长音视频生成评测集,从多个维度进行了全面测试。结果显示,JoyAI-Echo 在跨镜头一致性、视频质量、文本一致性和语音内容准确率等所有核心指标上都取得了领先表现,其中语音内容准确率更是高达0.8646,大幅领先行业其它同类模型。

在与行业同类模型对比中,用户认为JoyAI-Echo音频质量偏好的比例为81.7%,提示词遵循偏好为80.6%,视觉美学偏好为63.6%,IP 一致性偏好为59.4%。

JoyAI-Echo 的推出,意味着AI 视频生成的 "长视频时代"来了。它为虚拟故事创作和动漫制作、数字人内容生产和直播、品牌营销视频快速迭代、互动教育课件生成等领域带来了全新可能,将大幅优化行业成本效率。JoyAI-Echo也预示着未来人类可以像聊天一样,持续创作、修改和完善长视频内容,让高一致性、高画质、可交互的视频生成,真正走进每一个内容创作者的工作流程。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10