WAIC|商汤首席科学家林达华:多模态是通向AGI的必经之路

中国经营报
Jul 29, 2025

  “人工智能(AI)是一种途径,其本质是要构建一种真实的智能。所谓真实的智能,就是像人这个智能体一样,能够跟真实的世界进行自主的交互,这是智能的终极目标。”在“2025世界人工智能大会”(WAIC)期间,商汤科技联合创始人、执行董事、首席科学家林达华博士在接受《中国经营报》记者提问时指出。

  谈及大模型的演进趋势,林达华认为,在向AGI(通用人工智能)发展的道路下,当下发展最快的语言模型是比较容易切入的第一步,而在真实场景中,AI需要处理的信息不止语言,最终要实现AGI不可缺少的是多模态的能力。

  本次WAIC期间,商汤正式发布了日日新V6.5 “开悟”世界模型,与此同时还发布了“悟能”具身智能平台。

  《中国经营报》:大模型发展至今,你觉得语言模型和多模态模型是应该分开来做,还是去做多模态的融合?

  林达华:多模态发展早期叫计算机视觉,2023—2024年多模态模型开始将不同模态数据一起训练,形成跨模态理解能力。2024年下半年,谷歌Gemini模型提出原生多模态概念,形成更深入的跨模态建模能力。如今,多模态已从理解延伸到思考层面,经历了从简单嫁接、融合理解到思考的拓展过程。

  实际上,商汤是国内较早开展多模态融合的企业。我们在去年年中发布“日日新”5.0后就立项研究,花了几个月终于得出了答案。当有效融合训练后,多模态模型在纯语言任务中表现优于纯语言模型,单独语言模型没必要了。从“日日新”6.0到最新的6.5都是多模态模型,在纯语言、纯文本任务性能达到先进水平。

  在“日日新”6.0前,商汤打通融合训练流程,发现预训练中段融合效率最高。“日日新”6.5实现融合思考,通过图文交错生成新图形启发思考得出结论。商汤是国内最早开展多模态融合且技术成熟的企业。从海外大厂的动态看,多模态大模型成行业趋势,国内厂商预计今年下半年跟进,商汤起步更早、技术更成熟。

  《中国经营报》:商汤在大模型浪潮中看到了哪些新的机会?

  林达华:我从几个角度阐述商汤对AI技术的思考。首先,ChatGPT让全世界看到AI技术上了新台阶,它带来了巨大变革浪潮,有重塑世界、生产生活的可能性,商汤想抓住这一浪潮创造更高影响。其次,此次浪潮核心在于,过去AI 1.0时代的深度学习模型只能做专门工作,而通用AI模型自主性强、通用性高,能完成复杂工作,且交互方式更自然,这是与上一时代AI不同的能力发展。

  有了这些能力,就能重塑未来产业,比如一是软件构建。写代码的终极目标是造软件,编程从传统方式转变到高级语言后,能写程序的人增多,软件和互联网产业兴起,但写程序仍需专业培训。未来,软件构建将更便捷,普通人无须掌握专业语言,提出需求就能造软件,这实现了能力解放和平权,会改变产业格局。例如,拍电影从专业化工作,因AI变成全民可参与的事。商汤认为,AI能颠覆办公模式,让办公更高效,这是变革生产力的机会,未来办公软件和软件构造方式都将改变。

  二是交互。过去交互方式不自然,未来交互无处不在,智能硬件能像伙伴一样贴心回应需求。商汤的交互模型与硬件结合,能重塑未来交互方式。这些能力提升带来未来模式变革,是商汤的机会。

  《中国经营报》:商汤进军具身智能领域的考量是什么?

  林达华:多模态发展要经过三个重要发展阶段,前两个阶段——语言与多模态融合、多模态思考过程都在数字空间进行信息处理和判断,最终要影响现实世界,需实现数字与物理空间连接,这是到达AGI的重要一步。

  从技术发展脉络和商汤自身积累看,商汤多年从事计算机视觉,构建了多模态模型与技术,在与硬件公司合作及智能驾驶中积累了模型规划、控制技术体系。所以,商汤具备让智能体理解空间、规划行动的技术基础,此次提升具身智能平台,旨在支持其生态化、智能化发展。同时,具身智能市场快速成长,商汤希望捕捉商业机会,其多模态大脑、具身智能与世界模型积累相结合,有占据市场重要位置的优势。

  商汤做世界模型,结合多模态基座积累与端到端闭环反馈,实现最终的对齐。商汤将世界模型用于自动驾驶模块训练已取得成功,绝影自动驾驶模型就是在世界模型的输入下迭代而来。世界模型结合海量多模态训练数据积累与真实闭环牵引,不会与现实脱节,用其牵引具身智能体和自动驾驶训练,效率比仅依靠真机数据快很多。

  《中国经营报》:大模型和具身智能都需要持续的投入,商汤如何平衡长期布局与短期回报?

  林达华:我认为最重要的是研发要与最终商业愿景对齐,这也是内部强调的重点。科研布局有众多事可做,选择与判断模型产生闭环价值需突破的关键点有关。因此,要通过商业落地校正科研和研究布局航向,使其在商业上形成支撑与突破。比如商汤不做奥赛金牌相关,因其无法商业落地,而是追求可泛化推理,要求业务和教育上用到的数学做到 100 分。我们用业务倒推对技术演进和投入判断点的思考,让基础模型投入支撑业务,这是关键闭环逻辑。另外,具身智能和基础模型并非完全分割资源,具身智能世界模型建立在多模态积累基础上,此前在自动驾驶和多模态大模型方面的投入构建了技术体系,所以额外投入没那么大。

(文章来源:中国经营报)

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10