商汤徐立WAIC演讲全文：AI十年演进“三级跳”，下一步是跨越虚实天堑

作者 | 陈骏达

编辑 | 心缘

智东西7月26日报道，今天，商汤科技董事长兼CEO徐立在2025世界人工智能大会（WAIC）开幕式上，发表了以《人工智能的十年演进》为题的主旨演讲。

徐立认为，过去十年，人工智能经历了三次跳跃：先是从深度学习驱动的感知智能，由CNN、ResNet等算法和ImageNet的1400万张标注图片，开启了垂直领域的视觉应用。

接着2017-2018年，Transformer的出现带来生成式智能。这些模型采用海量高密度文本信息进行学习，模型泛化能力、通用性不断提升。再到今天多模态大模型、智能体、具身智能与世界模型依次登场，普罗大众对AI技术的认知也来到高峰。

在AI不同阶段的发展过程中，数据始终是智能的来源：感知时代靠人工标注，“把一个人10年的知识传给了AI”；生成式阶段依赖自然语言，但互联网上的自然语言数据总有用尽的一天。未来，AI技术需要转向“真实世界互动数据”，因为只有主动与环境交互才能快速进化。

为跨越虚拟世界与现实世界之间的差距，商汤已经打造了“开悟”世界模型，并于今天推出举一反千的“开悟”平台。这一平台可生成符合3D真实情况、物理规律的多视角视频，可在自动驾驶等场景中实现AI的自举与自学。

徐立总结道，人工智能正沿着“感知世界—理解世界—生成世界”的路径前行，最终将与现实硬件交互，改变我们的世界。

以下是徐立在WAIC开幕式上的完整演讲：

一、AI技术三次跳跃，智能从哪里来？

各位朋友大家好，很高兴有机会在这里分享一下这个我们关于人工智能演进的一些思考。

题目上我们加了一个人工智能的十年演进，原因是过往的十年，也是我们见证人工智能认知变化最快的十年，另外的原因也是因为我们公司做了十年，如果是各位领导站在这里，那可能可以谈人工智能的50年，而我们从过往的十年开始谈起。

我们来看过往十年，谷歌的搜索引擎关于人工智能的热度，你们很容易看见它有三个很明显的跳跃，也就是在那个时间点上，这个普罗大众的认知发生了一些规模化的变化。

最开始从感知智能，也就是从深度学习进入到视觉，然后再有各种算法的迭代，CNN、ResNet的发展推动了第一波人工智能行业的发展。到2017-2018年的时候，从Transformer到自然语言的模型发展，我们又进入到生成式智能的阶段。

这两个阶段一直推动到现在行业的发展和普罗大众的认知形成了高峰，从ChatGPT，以至于后ChatGPT的智能体，多模态大模型，甚至是对现实世界改变的具身智能以及世界模型的变化。

很有意思的是，我们一直在思考一个问题，在这个三个不同的阶段当中，智能本身从哪里来？当然算法的迭代以及生产力的爆发，包括说GPU的迭代是一个很重要的要素，但是本质上还有一个要素就是AI，机器学习到底学的是什么？

从感知时代开始，其实我们得益于互联网上大量的数据，对现实世界的拷贝，已经存在了，包括图片、视频。所以感知时代，我们是从标注当中去获取智能，也就是AI其实是从人的标注当中获取，通过大量的标注之后训出一个一个模型。我们当时推出的商汤方舟，蕴含一万多个模型，可以做很多不同垂直领域的任务。

在那个时代，机器的智能来自于学习这些东西，大概是什么样的一个数量级。在2012年，Hinton带领团队第一次在ImageNet上取得冠军的时候，大概是1400万张图片。

如果按一个人的标注来讲，这个人的工作大概是10年左右的时间，也就是我们把一个人10年的知识传给了AI。这个数据看上去好像很大，但实际上想一想，如果只是单人10年的数据，其实做很多的泛化还是受限制。所以在那个阶段，人工智能的工具属性非常明显，基本上是垂直领域的感知，也就是在很多垂直的方向上面，我们需要做专属的模型。

二、高密度语言数据催生智能，多模态融合成大趋势

到了生成式人工智能，或者更加通用的人工智能有什么区别？我觉得一个很有意思的区别，就是通用人工智能是从自然语言开始的，但互联网上的文本大家想一想，本身就是蕴含知识的，它不需要后加工。

虽然我们看到互联网上图片和视频数量远大于文本的数量，但是文本的知识密度可能更高。所以如果我们以GPT-3处理7500亿token来说，假设这是一个人认认真真作为自然语言创作者来开始写的话，他大概要写十万年。也就是从十年到十万年一万倍的数据量差。

自然语言的数据密度非常高，从而使得说我们的模型泛化能力、通用性起来了。这才是推动现在通用人工智能发展的一个基石，有一个很好的底座。那当然，很容易我们就看到说，这些数据都会被用尽，图片数据标注是需要人来处理的，其实这也是一个人工的工作。

而自然语言，据说在2027~2028年，整个互联网上的自然语言的数据都会被用尽。实际上，是语言生成的速度远没有算力的生长的速度来得快，那这样显然形成了一种模型的倒挂差。那能不能从原始的无序的图像视频当中获取更多的知识呢？是有可能的，但是这过程当中需要非常多的工作。

我们也是在这过程当中走一个很自然的路，就是融合我们感知的能力和我们自然语言的能力，形成一种原生的多模态，也就是说我们构造图和文的连接，把图和文生成一种更长的思维链。然后用这个思维链再去不停地去激发模型的能力。

大家知道智能本身应该是激发出来的，很难说在完全没有基础设施上面，就能够长出这个智能。当然现在，刚才大家听到可以做说递归的自学习等等，可以基于现有的模型往前推进。

但是本质意义上我们需要构造一条模型演化的道路。随着我们加入了很多图文演示，甚至是更高阶的思维链的时候，我们发现一个很有意思的现象。这张图是我们要推出的日日新V6.5，最左边这张图特别有意思，我们同一个模型能够做好音频的交互能力，多模态的推理能力。但是加入了足够多、足够长的多模态的思维链之后，我们的文本、纯文本的推理能力也有一个很大的提升。

这就是说，其实还有很多的路线，其实能够把互联网上其他的模态的数据的知识抽离出来，融合到文本当中，使得文本的对空间的理解，对于物理世界的理解能够进一步地提升，从而说这样的一个文本模型也能够更好地控制生成，甚至是控制图像和视频生成。

三、AI技术面临“数据墙”，如何走进物理世界？

当然了，人类还是会面临这样一个缺失的问题，也就是说当穷尽书本和互联网的知识的时候，更多的智能从哪里来？第一代是标注来，第二代自然语言已经来了，第三代接下来怎么来？

那我们来看看人是怎么来学习的，对不对？人从出生开始，就是跟现实世界来进行各种各样的探索，他不是先从学语言开始，也不是先从学认识东西开始，他跟世界的交互和探索已经形成了很大的这个智能的增长。这也就是说，大家很自然地想到，在图像标注互联网文本之外，大家去采集大量的跟真实世界互动的数据。

为什么我说要大量的呢？是因为你需要探索不同的物理空间，就是比如说你需要有各种各样的姿势，各种各样的角度，所以你的采集量会非常的大。现在很多机器人、具身，我觉得最大的瓶颈还是在素材上面会有很大的需求。

当然，这个也是非常显然的。1963年有一篇很有意思的文章叫主动猫和被动猫，就是他们做了一个很有意思的实验，就是一只猫和另外一只猫通过一个轴所相连。然后一只猫是可以动的，另外一只猫不能动，但是它们两个看到的东西都是一样的。

也就说同样的视觉输入，一只猫是可以跟现实世界互动，另外一只猫不行的情况下，那只会互动的猫显然成长的速度会非常的快。所以这也是具身的来源，为什么要去做具身智能，就是因为跟现实世界的探索。

但还会面临问题，因为如果真正通过机械去跟现实世界做互动，很显然它的探索空间需要模拟的世界太大，有时候还会有一个模拟到现实的这个差距叫Sim-to-Real Gap。那有没有可能通过现在的这种所谓的，对于现实世界的理解来做生成，理解生成统一的世界模型。是有的，但是也会面临挑战。

比如说用世界模型去生成数据，这是现在用世界模型做了很多的叫自动驾驶方面的领域的生成，也是最开始我们做这个模型的生成。生成的质量很高，但是很显然它会违背物理的法则。譬如说十字路口车辆的互相穿越，有一种幽灵车的感觉，还有一些随机失控很难调整。而且大家知道生成视频再好的模型，它生成视频的响应速度会比较慢。

所以如果你需要来去对生成视频进行实时交互的话，往往要等，而且可能还需要抽卡，抽出来一个视频也不知道是什么。比如说抽出一个大象跟小松鼠在玩跷跷板，那这个就很随机。

所以那怎么办？那就是需要有个很好的对现实世界理解的模型，加上对3D理解的模型，来指导这个部分的能力。那么我们推出我们自己的“开悟”世界模型，用我们的日日新V6.5去赋能。“开悟”世界模型也是个视频生成模型，但是它考虑了时间、空间的一致性。

我们举一个简单的例子。自动驾驶里面有一个叫7路摄像头视角的车的数据采集，很显然需要花大量的力气来采集，但是我们生成的，就是可以用自然语言去生成右边的7个摄像头生成的数据，我们来看一下细节。

首先来看，这个车从一个角度开到另外一个角度的时候，在不同的摄像头里的位置，甚至都可以模拟出摄像头的形变，空间一致性表现非常好，只有一个完全对3DGS有充分理解之后才能表达的，所以这也是这个模型本身很强的一个能力，否则没有办法用来做下一个阶段的训练提升。

当然还有一种是对空间的一致性，比如这个车一会在前，一会在后，不同的摄像头拍到这个车的不同时刻，比如车牌应该都要一样。如果我们有很好的视频生成引擎，左边生成一个，然后方向盘一转，右边一看那棵树就飞走了，可能AI也搞糊涂了，这车也不会开，很显然时空的一致性要达到各种各样的可控。

我来举一个很有意思的例子，自动驾驶里的一个Corner Case——加塞儿（Cut-in），在自动驾驶里非常普遍。大家都觉得这可能是个难题，对于人类驾驶来讲也是个难题。新司机不敢加塞，躲在后面半天不能走，老司机加塞，但事故率有多少？22%的事故来自于加塞，所以自动驾驶得学习加塞。

怎么做呢？如果太保守，开不动；太激进，可能得撞。比如这个Waymo的车很有意思，两辆车都想加塞，两个都卡，又要加塞又都卡了，形成一种博弈，然后就循环了。所以在这种过程中，它需要大量的数据去训练这种场景。但是如果真的到路上去采这个数据，非常难采大量的数据，加塞的数据在里面占的比例比较少，那怎么办？

那么世界模型能不能去生成7个摄像头的加塞视频？我们来看一看，这个是一个大型车辆的加塞，描述了我们的方向、时间、角度。一起看下，这个大巴士从右边加塞进来，保证了一致性，那可以大生成大量的这个视频，而且关键是要可控稳定。

什么叫可控稳定？我们可以调节各种各样生成的可能性，譬如生成各种不同光照的比如白天、黑夜，就不用再去开了；各种天气的比如晴天、阴天、雨天；各种道路结构的，弯道、直道，甚至可以开到F1赛道上都没有问题。

F1 赛道加塞也是个常态。各种各样的道路状况，还有开车的速度，开进来速度快、速度慢都要去做调整。还有车型包括小的、大的，当然还有各种各样的可能性。

所以既然我们能生成这样加塞的视频，我们就可以走到一个探索世界的可能性，这是我们最早做无人驾驶的时候，做一个模拟器，大家都听过机器人有这样的一个模拟平台，所以机器人可以在模拟平台上做什么？

强化学习，之后再运用到现实世界，但往往这样的一个过程会有个Sim to Real的Gap。所以我们在这种模拟仿真，甚至是高精度的3D模拟仿真中做的这个算法、探索，这个探索的好处是它可以跟真实世界互动，有强化学习来进行这样的探索，但是它用到现实世界中会有很大的差距。

今天随着我们基模型的能力越来越强，对世界的理解越来越深刻，理解跟生成的统一性就使得我们可以有这样交互的可能性，这个视频非常的特别，也是我们今天会发的一款产品，可以看到它的输入是什么？方向盘、刹车以及油门这三个输入，控制了现在的这个视频生成。

这是一个看上去非常真实的场景，七个摄像头的视角，你就可以手把着方向盘来控制它的方向，在现实的街景场景中去开，然后边上有各种各样的光照条件、车辆条件，每个摄像头有不同的视角，并且一致化的统一，我觉得这就是在真实的世界上开极品飞车。

但有了这样的功能之后，是不是可以辅助到很多行业的进步，对真实世界的探索有更大的可能性，我们就可以叫AI自举，用部分数据生成更多数据，然后再往前走，就是Self Learning，有那么一点可能。

所以我们就在今天推出举一反千“开悟”平台，这个平台现在谁都可以使用，用自然语言的模式描述场景，描述你想要的视频段，它可以生成非常多不同视角符合3D真实情况的模型。我们要求的不是视频的质量达到电影级别，而是它符合物理的规则、物理的定律，并且能够真正意义切进用户的使用场景，让你在真实的世界中开极品飞车。

最后我们来看AI发展的三个阶段，感知世界，更好地理解世界才能做生成世界，最后可能和现实的硬件交互来改变我们的世界。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

商汤徐立WAIC演讲全文：AI十年演进“三级跳”，下一步是跨越虚实天堑

Most Discussed