对话商汤科技首席科学家林达华:生成不等于完成,AI创作的关键是理解人的意图

市场资讯
28 Jul

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:时代周报)

本文来源:时代周报 作者:雨辰

在AIGC技术快速迭代的当下,图生视频正在从实验室走进创作室、工作坊和工业一线。

2025世界人工智能大会(WAIC 2025)期间,商汤科技联合创始人、执行董事、首席科学家林达华博士在接受时代周报等媒体采访时,深入剖析了多模态大模型的演进趋势、技术挑战与商汤的战略布局。他强调:“多模态能力是通向通用人工智能(AGI)的必经之路。”

今年5月,CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》,该报告首次以中国动漫电影《哪咤2》为案例,结合权威数据,揭示了AI在激发创意与优化流程方面如何实现“降本增效”。

林达华认为,生成式AI的未来,不应仅仅追求“从文字直接生成图像或视频”的技术炫技,而应聚焦于创作者意图与结果之间的精准对接。“AIGC的终极形态,是一个真正服务创作过程的交互工具。”

商汤科技联合创始人、执行董事、首席科学家林达华博士

时代周报:从技术角度来看,在视频生成过程中,如何实现对空间结构和物理逻辑的有效把控?

林达华:商汤很早就布局了数字人、三维建模等方向,因此在三维空间建构方面积累深厚。在Sora引发关注时,我们也研究了它的视频质量,的确在视觉效果上令人惊艳,但它在物理规律的掌握上存在明显不足——它采用的是基于时间的一帧帧生成逻辑,本质上并不具备三维结构的建模与控制能力。相比之下,商汤内部一直在探索如何将三维结构能力应用于视频合成,让生成视频在空间结构和物理逻辑上都更加真实可控。

这一优势也体现在我们参与的奥运场景应用中。例如在去年奥运会乒乓球等项目中,我们把三维的结构的这种信号,用于控制视频的生成,使得它生成的结果符合物理的结构、物理的规律。成功实现对球拍与球体轨迹的精准还原,为赛事回放与辅助判罚提供了强有力的技术支持。

时代周报:在实际运用中视频生成结果“符合物理逻辑”有多重要?

林达华:这是我们高度重视的关键能力。生成内容不仅要“看起来真实”,更要“逻辑上成立”。例如,商汤的“开悟”世界模型,在某种意义上,也可被视为一种视频生成模型,但它对三维结构生成的准确性和物理性的要求极为严格。若生成的结果不符合物理规律,将其用于驾驶训练,将导致灾难性的后果。所以,相较于一些AI公司追求生成画面越“炫”越好,商汤更强调结果的正确性:我们生成的画面必须符合物理规律、空间逻辑,并具备可解释性。

时代周报:图生视频较文生视频有哪些提升?图生视频具体有哪些典型应用场景?在哪些环节真正能发挥价值?

林达华:相较于文生视频,图生视频显然具备更坚实的依托。以文字为例,若要生成一只在空中飞翔的鸟,单凭文字描述,系统难以构思出丰富的细节。然而,若有一张图片作为基础,生成的结果便会日新月异。例如,要求系统生成“我妈妈微笑的照片”,若系统未曾见过你母亲,又怎能凭空创造?显然,必须有一张实际图像作为参考。因此,我认为真正的个性化生成,不应仅依赖文字描述,而需以真实影像为支撑,方能实现这一可能性。

从图生视频的角度来看,最直接的莫过于C端应用场景。假设你家中存有大量照片,希望让它们“动”起来,这无疑是一个极具吸引力的创意。早期,我的团队开发了AnimateDiff,影响力较大。如今,许多后续的图生视频研究都与AnimateDiff有着千丝万缕的联系。我们注意到,这项于2023年开源的技术,被广泛用于创作各类充满想象力的视频,用户仅需几张照片便能展开创作。

时代周报:图生视频价值在哪里?您怎么看AI和人类创作者的关系?

林达华:我们一直认为,文生视频也好,图生视频也好,都不是生成式AI的终极形态。真正的理想状态,是将创作者的意图与生成过程深度融合,把AI当作一个真正服务创作流程的“工具”。

在我理解,包括我们刚刚发布的视频平台上的Seko AI,它是一个交互式创作工具,我们将视频的制作视为一种创作,而不是仅仅输入一句话后就不管不顾,等待它生成一个结果。这个结果很可能并不符合你的预期,也不一定能直接使用。

真正有价值的是,它能大幅减少你的工作量,同时你仍能对最终的生成内容进行把控。当发现生成内容不合适时,你可以指导它进行修改,掌控生成的脉络,这就是交互式生成的核心所在。

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10