AI教母李飞飞最新访谈:AI的下一个前沿不是语言,而是空间智能

Z potentials
Feb 12

图片来源:Fortt Knox

Z Highlights:

真正重要的是,整个人类社会、整个全球人口都能参与到AI当中,因为这是一项文明级别的技术

AI是新一代的计算方式。这意味着:任何依赖芯片、依赖计算的设备、系统或场景,最终都会依赖AI计算

空间感知智能(spatial perceptual intelligence)是智能的关键支点。我们日常生活中的绝大多数行为,以及整个人类文明中的工作,都依赖于空间、感知与具身智能。

李飞飞曾是Stanford Human-Centered AI Institute的创始主任,如今是World Lab的联合创始人兼首席执行官,在空间智能领域引领创新。本次访谈是她2月4日在Fortt Knox节目上,与主持人Jon Fortt关于AI发展及公司最新情况的探讨。

AI是一种文明级技术,不能只由“少数人”塑造

Jon Fortt:李飞飞博士,感谢你接受《Fortt Knox》和CNBC的访谈,也感谢你抽出时间。人们称你为“AI教母”,因为你在塑造今天商业世界正在进入的这一现实中,做了大量奠基性的工作。事情的发展,和你当初预想的一样吗?

李飞飞:是,也不是。

首先,没有任何一个人可以“独占”一个学科。我们今天所处的现代AI这场巨大变革,是几代科学家和技术人员共同努力的结果。对于我们这些在这个领域已经深耕很久的人来说,我们当然一直相信AI的力量,也相信这门科学所能达到的高度。它是一种文明级别的技术。

但我必须说,过去——我可以说近十年,尤其是最近这几年——AI发展的速度,真的超出了我们很多人最狂野的想象。看到整个产业全面拥抱AI,同时整个社会也从各种不同的角度、不同的维度,带着非常强烈的情绪在讨论AI,这种感觉至今仍然有点不真实。但与此同时,它也让我感受到一种沉甸甸的责任。

Jon Fortt:你做了大量工作,来确保在AI的开发过程中,有更广泛的人群和视角能够参与其中,也能获得使用AI的机会。比如你曾多次谈到女性在AI领域中的角色。我想请你帮我们勾勒一下,你眼中“利害关系”究竟在哪里。

因为过去,我们讨论的是文学作品中不同视角的代表性,讨论的是媒体中的多元表达。但现在,我们几乎是在直接构建世界的版本,而这些版本将会反过来影响现实世界如何运转。为什么让多种多样的声音参与其中如此重要?

李飞飞:这不仅仅是“多一些不同的声音”这么简单。真正重要的是,整个人类社会、整个全球人口都能参与到AI当中,因为这是一项文明级别的技术。无论我们谈的是医疗健康、农业、教育的变革,还是机器人、能源与可持续发展,我们生活的每一个方面、工作的每一个方面,都会受到这项技术的影响。

人们经常问我:什么是AI?该如何理解它的影响范围和覆盖面?我常用的一个例子——其实也不完全是类比——是去想一想“芯片”可以存在于哪里。我们常常把芯片想象成那种体量很大、能耗很高的东西。但事实并非如此。现在几乎每一个灯泡里都有一颗非常小的芯片。你的冰箱里有芯片。汽车里有芯片。飞机里则有大量的芯片。只要有芯片的地方——从最微小的芯片到大型芯片——就有计算能力。因为芯片是计算的硬件基础。

而AI是新一代的计算方式。这意味着:任何依赖芯片、依赖计算的设备、系统或场景,最终都会依赖AI计算。所以你就能理解,这项技术的影响有多么深远。因此,它的“利害关系”就是——一切。当然,它会分阶段到来,但在这个时间点上,我们的学界、我们的社会,必须理解这项技术的深远意义。

Jon Fortt:我最近思考这个问题的一个角度是这样的。几个月前,也就是去年夏天,我有机会去曼谷参加CNBC举办的一场活动。在那里,我见到了我一位高中时期的老朋友——Kasimatharn Pippachai。他当时正在SCB10X工作,参与一个叫Typhoon的项目。这个项目的目标,是构建原生泰语的AI模型,而不是依赖英语、普通话等等其他语言。在那次拜访之后,在和我这位老朋友聊完他们正在做的事情之后,我开始用一种完全不同的方式去思考“本土化AI”的意义。

如果AI真正理解你的语言、你的文化、你的生活方式,那会怎样?而如果它不理解,如果你根本没有参与到这个系统的构建中来——谁会被包括进来?谁又会被排除在外?关于语言与文化如何深刻影响AI的理解方式,以及如果这些因素没有被纳入设计中,哪些人可能会被系统性地忽视——我们对这些问题的讨论,是否已经足够多了?

李飞飞:是的,我确实经常在世界各地旅行,与来自各行各业的人交流,包括欧洲、APEC地区以及美洲各国的政府与机构。我认为,人们、国家以及不同区域都非常清楚本土化AI的必要性。

我们现在的讨论重点常常放在语言模型上,这当然非常重要。你刚才举的例子,本身就是一个语言模型的案例。但AI并不只等同于语言模型。即便我们只聚焦在语言模型这一点上,本土化AI对人们来说也是至关重要的。不同地区、不同背景的人,拥有不同的文化、语境、共同经验以及情境细微差别。无论是艺术家、制造业从业者,还是其他任何行业的人,这些差异都必须被AI理解和尊重。

而且我认为,推动这件事的不只是“自上而下”的政策意图,并不是因为我们觉得“应该这么做”。真正的驱动力来自市场,来自人们本身的需求。我看到来自很多地区、很多政府,都对构建本土化AI表现出非常健康、积极的兴趣。

语言模型不是终点,空间智能是AI下一前沿

Jon Fortt:你提到AI不只是语言,这是一个很好的过渡,引向World Labs。你关注的不仅仅是文本提示和回复,而是沉浸式的、受物理规律影响的三维交互。我想这其中会涉及材质、触感,甚至在某个阶段,可能还能做烹饪模拟之类的事情。你认为在未来五年、十年,这样的技术会带来什么样的能力?你会把它和你多年前在图像领域所做的工作,做怎样的类比?

李飞飞:我的职业生涯是从计算机视觉开始的,它是AI的一个子领域。就像我一些同事是从自然语言处理起步一样,最终自然语言处理与AI的其他分支共同推动了GPT这样的技术出现。

在整个职业生涯中一直从事视觉AI研究,让我深刻意识到:空间感知智能(spatial perceptual intelligence)是智能的关键支点。

从进化的角度、从人类自身的角度来看,我们并不是只靠“说话”来生活的。我们早上醒来,会拥抱自己的孩子。会给他们做早餐。会开车送他们去上学。我们自己去上班。点一杯咖啡,并且知道该如何端起它、喝下它。

我们日常生活中的绝大多数行为,以及整个人类文明中的工作,都依赖于空间、感知与具身智能因此,在语言模型之外,AI的下一章、下一个前沿,正是空间智能。这也是为什么我们在不到两年前创立了World Labs。我们专注于打造下一代前沿模型,让AI能够推理、理解、交互,并生成三维、四维的世界。这些能力将赋能大量应用场景,包括:模拟、机器人、创意产业、设计、教育、医疗健康、制造业,以及更多横向扩展的空间智能应用领域。

Jon Fortt:因为这在某种程度上就相当于“图像捕捉”的进阶版本,它可以教会系统理解事物是如何运动的、相互碰撞时会发生什么、是否会碎裂,或者是否具有韧性。这些东西,单靠语言是没法完整描述的,对吗?

李飞飞:是的,确实无法做到。

首先,这已经不只是“用图像来进行推理”那么简单了,因为那仍然是一种相对被动的方式。而通过世界建模(world modeling)与空间智能,AI可以变得具有主体性(agentic)。它可以被计算、被规划,能够为具身智能体(embodied agents)提供更主动的能力。

就像我刚才举的例子,比如说你在做一顿饭,哪怕只是做一份很简单的意大利面。你当然可以用语言来描述这15分钟或20分钟的过程,但那仍然是一种高度有损的信息表达。比如你是怎么调酱汁的,你是如何把意面放进水里的,意面在水里发生了什么变化——这些细微之处,几乎不可能只用语言来准确描述。

而现实世界中的大量物理过程,不管是由人类发起的,还是人类与非人类系统之间的交互,本质上都超出了语言本身所能承载的范围。

Jon Fortt:最后一个问题。我知道你今天还有很多事情要做、很多人要见,非常感谢你抽出时间。你们在World Labs所做的这些事情,有一个应用场景很自然地会让人想到——那就是游戏产业。这里既有巨大的商业价值,也有创新空间和团队协作的可能性。我们应该在多大程度上期待,你们的这些工作会体现在更快、更高效的游戏开发中,并以此作为一种扩散影响力的方式?

李飞飞:是的,你说得完全对。游戏和互动式体验,确实是我们非常兴奋的一个市场方向。就在去年,大约两个月前——现在还只是二月初——我们发布了自己的第一个模型,以及一个名为Marble(World Labs出品)的产品原型。已经有非常多的游戏开发者在使用这些工具,玩得很开心,也不断向我们展示他们正在制作的作品。当然,目前这些还不是3A级别的大型游戏,而是体量更小的项目,但这本身就已经让我们非常兴奋。因为这意味着,我们已经开始真正赋能游戏开发者的创造力与创新能力。

Jon Fortt:非常期待接下来会发生什么。李飞飞博士,感谢你接受我的采访。

李飞飞:谢谢你,Jon。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10