李飞飞在YC创业学院:从ImageNet到空间智能,AGI的关键转折

市场资讯
Jul 07

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

作者 | 大模型机动组

邮箱 | damoxingjidongzu@pingwest.com

在 AI 飞速进展中,空间智能被视为通向 AGI 的一块关键拼图。李飞飞博士,作为计算机视觉领域的先驱,正带领团队挑战这一前沿课题——如何让机器理解、生成并在三维空间中进行互动。

从 ImageNet 到 World Labs ,李飞飞的学术与创业之路始终紧跟时代步伐,跨越一个又一个技术瓶颈。而今天,她将目光聚焦在更为复杂的空间智能上,探索如何突破视觉智能的二维限制,走向理解和重建三维世界的未来。

在YC创业学院峰会现场,YC 合伙人 Diana Hu 与李飞飞展开一场炉边对话,李飞飞深刻剖析了空间智能与语言理解之间的巨大差异,指出为什么三维世界建模对于AI的演进至关重要。这不仅是AI技术的一次飞跃,更是智能体与人类世界更深层次连接的关键一步。

访谈内容原汁原味呈现于下:

李飞飞:我的整个职业生涯都在攻克那些极其困难、近乎妄想的问题,对我而言,没有空间智能的AGI是不完整的,我想解决这个问题,我就是热爱当企业家,忘掉你过去的成就,忘记别人对你的看法。埋头苦干,努力建设,那是我的舒适区。

Diana Hu:我特别兴奋能请到李飞飞博士,她在 AI 领域有非常长的职业生涯,我相信很多人都认识她,她被称为 AI 教母。你在2009年,创建的首批项目之一是 ImageNet(图像数据库)。也就是16年前,天呐。

李飞飞:别提醒我这事了(笑)。

Diana Hu:现在该项目的论文引用量已超8万次,并且真正开启了 AI 的一个关键支柱,也就是数据问题。请告诉我们这个项目是如何产生的,那在当时可是极具开创性的工作。

李飞飞:首先,Diana、Gary,还有在场的各位,感谢你们邀请我来。我非常激动能来到这里,因为我感觉自己就像是你们中的一员。我现在也是一名企业家,刚创办了一家小公司,所以很高兴能来这儿。

我们差不多18年前就有了创建 ImageNet 的想法,当时我是普林斯顿大学的一年级助理教授,那时 AI 和机器学习的世界和现在大不相同,数据少之又少,至少在计算机视觉领域,算法根本行不通,也没有相关产业。就公众而言,“AI”这个词都还不存在。

但我们仍然有一群人,从 AI 的先驱开始,比如约翰·麦卡锡,再到像杰弗里·辛顿这样的人物,一直怀揣着 AI 之梦。我们真的想让机器会思考、能工作,怀揣着这个梦想,我个人的梦想是让机器能“看”,因为视觉是智能的基石。视觉智能不只是简单的感知,而是真正理解世界并能在其中有所作为。

所以我痴迷于让机器“看”的问题,当我痴迷于开发机器学习算法时,那时我们尝试过神经网络,但没奏效。我们转而使用贝叶斯网络、支持向量机等其他方法。

但有个问题一直困扰着我,那就是泛化问题。如果你从事机器学习领域的工作,就必须明白泛化是机器学习的核心数学基础和目标。为了让这些算法具有泛化能力,就需要大量数据,当时在计算机视觉领域根本没人有数据。我是第一代开始涉足数据研究的研究生,因为我是第一代见证庞大的物联网时代到来的研究生。

时光快进到2007年左右,我和我的学生决定大胆一搏。我们认定机器学习领域需要一场范式转变,而这场转变必须由数据驱动的方法引领,但当时没有数据。于是我们想,那就去互联网上下载十亿张图片吧,这是我们能从网上获取的最大数据量了,然后创建一个涵盖整个世界的视觉分类体系,我们用这些数据来训练和评估机器学习算法,这就是ImageNet 被构思并实现的缘由。

Diana Hu:过了好一段时间,才出现有前景的算法,直到2012年 AlexNet 问世,那才是迈向 AI 的第二步,也就是要具备足够的计算能力并投入大量的算力和算法。给我们分享下你是从什么时候开始意识到,你用数据为其奠定了基础,然后社区开始为AI找出更多东西的那个时刻是什么?李飞飞:在2009年,我们发表了一篇非常小的 CVPR 海报。从2009年到2012年这三年间,AlexNet 出现后,我们坚信数据将推动 AI 发展,但对于这种方法是否可行,我们几乎没有得到什么有效的反馈。

所以我们采取了一些措施,其一,从一开始我们就认为要将相关内容开源给整个研究界,让大家一起来研究。其二,我们发起了一场挑战赛,因为我们希望全世界最聪明的学生和研究人员都来解决这个问题,这就是我们所说的 ImageNet 挑战赛。每年我们都会发布一个测试数据集,整个ImageNet数据集可用于训练,但我们会发布测试集,公开邀请所有人参与,最初几年主要是在确定基准,当时的识别错误率达到了30%,这不是零误差,也不是完全随机的结果,但也不算太好。

到了2012年,也就是挑战赛的第三年,我在自己出版的一本书里写过这件事,我至今记得,大概在夏末的时候,我们把 ImageNet 挑战赛的所有结果放到服务器上运行。有天很晚了,我在家收到了研究生发来的消息,他说我们得到了一个非常突出的结果,让我看看。我们仔细研究后发现,这是一个卷积神经网络的结果,当时它还不叫AlexNet,杰弗里·辛顿团队把它叫做“Supervision”,这是一个很巧妙的双关语,既和“超级”有关,也和“监督学习”有关,我们查看了“Supervision”的成果,卷积神经网络是一种早在20世纪80年代就已发表的旧算法,只是在算法上做了一些调整,但一开始看到有这么大的进步,我们还是很惊讶。

当然,之后的历史大家都知道了,那一年我们在意大利佛罗伦萨举行的国际计算机视觉大会(ICCV)的 ImageNet 挑战赛研讨会上展示了这个成果。亚历克斯·克里彻夫斯基、杨立昆也来了。现在大家都把这一刻称为 ImageNet 挑战赛中 AlexNet 诞生的时刻。我想说的是,这不仅仅是卷积神经网络的功劳,也是亚历克斯和他的团队首次将两块GPU结合起来用于深度学习计算。所以这真的是数据、GPU和神经网络首次结合的时刻。

Diana Hu:随着计算机视觉领域智能技术的不断发展,ImageNet 实际上是解决物体识别概念的关键开端。接着 AI 发展到了能够处理场景识别的阶段,因为你和你的学生,比如安德里亚·卡帕西做了很多工作,让计算机能够描述场景,能跟我们讲讲从物体识别到场景识别的转变吗?

李飞飞:ImageNet 解决的问题是,给你一张图片,你能识别出里面的物体,比如有一只猫、一把椅子等等,这是视觉识别中的一个基本问题。

其实从读研究生进入 AI 领域开始,我就有一个梦想。我当时觉得这是一个要花上一百年才能实现的梦想,那就是对世界进行叙事描述。当人类睁开眼睛时,想象下你在这个房间里看到的不只是人和椅子,实际上看到的是一个会议室,里面有屏幕、舞台、人群、摄像头等等,你能够描述整个场景。这是人类视觉智能的基础能力,在我们的日常生活中非常重要。

所以我真的以为这个问题会投入一辈子的时间。说实话,我研究生毕业的时候就告诉自己,如果此生能创造出一种算法来描述场景,那就算成功了,我当时就是这么规划自己的职业生涯的。ImageNet 和 AlexNet 诞生,深度学习开始兴起。后来安德里亚和贾斯汀·约翰逊加入了我的实验室,我们开始看到自然语言和视觉开始融合的迹象。安德里亚和我提出了图像描述或场景叙事的问题,大约在2015年,安德里亚和我发表了一系列论文,这些论文和其他几篇同期论文一起,首次让计算机能够为图像添加描述。我几乎都不知道自己接下来该做什么了,这可是我一生的目标!那一刻对我们俩来说都太不可思议了。

去年我做了一个TED演讲,我还引用了安德里亚几年前在完成图像描述工作时发的一条推文,那差不多是他的博士论文研究内容。我还跟他开玩笑说:“安德里亚,我们反过来怎么样?根据一句话生成一张图片。”当然,他知道我在开玩笑,他说:“我可不干。”当时这个世界还没准备好。

但现在技术发展,我们都知道了生成式 AI ,现在我们可以根据一句话生成漂亮的图片,这段经历告诉我们, AI 取得了惊人的发展。就我个人而言,我觉得自己是世界上最幸运的人,因为我的整个职业生涯始于 AI 寒冬的末期,也就是 AI 开始腾飞的时候,所以我真的非常幸运,也有点自豪。

Diana Hu:我觉得最厉害的是,你不仅实现了描述场景的毕生梦想,甚至还能用扩散模型生成场景。而且你还有更大的企图心,因为计算机技术的发展轨迹从物体识别到场景识别,现在又到了“世界”这个概念。你还从学术界的教授转型成为了 World Labs 的创始人兼首席执行官。能告诉我们理解“世界”为什么比理解物体更难吗?

李飞飞:这确实有点不可思议,很难用几句话概括过去五六年的事。对我来说,我们正处在这项技术进步的一个重大历史时刻,作为一名计算机视觉科学家,我们见证了计算机视觉领域的惊人发展,从 ImageNet 到图像描述,再到使用扩散技术进行图像生成。与此同时,还有另一个令人兴奋的发展方向,就是自然语言处理,也就是LLM。2022年11月,ChatGPT开启了真正可用的生成式模型的大门,这些模型基本上能够通过图灵测试等等。

这对我这样的“老人”来说也很有启发,让我大胆地思考接下来会发生什么。作为一名计算机视觉科学家,我有个习惯,我很多灵感都来自进化生物学和脑科学。在职业生涯的很多时候,我都在寻找下一个亟待解决的关键问题,比如进化或大脑发育给了我们什么启示?有一点很值得注意和思考。从进化的角度来看,人类语言的发展,往多了算,大约用了3亿到5亿年,不到100万年。在这么长的进化时间里,人类发展出了语言,可以说,人类是唯一拥有复杂语言的动物。虽然我们可以讨论动物的交流方式,但从作为一种交流、推理和抽象工具的整体语言概念来看,只有人类拥有这一过程甚至不到50万年。

回到视觉能力,想想理解三维世界、在三维世界中做决策、在三维世界中导航、与三维世界交互、理解三维世界、描述三维世界的能力,进化用了5.4亿年才发展出这种能力。5.4亿年前,第一只三叶虫在水下进化出了视觉。从那以后,视觉引发了一场进化军备竞赛,在有视觉之前的5亿年里,动物都很简单,但在有了视觉之后的5.4亿年里,动物的智力开始不断提升。

所以对我来说,解决空间智能问题,即理解、生成、推理和在三维世界中行动的能力,是 AI 的一个基本问题。在我看来,没有空间智能,AGI 就不完整。想解决这个问题,需要创建超越平面像素、超越语言的世界模型,能够真正捕捉世界的三维结构和空间智能的世界模型。

我这辈子最幸运的是,不管我年纪多大,总能和最优秀的年轻人一起工作。所以我和三位非常出色的年轻技术专家——贾斯汀·约翰逊、本·米尔登霍尔和克里斯托弗·莱斯特一起创立了一家公司,我们要尝试解决当前 AI 领域最具挑战性的问题。

Diana Hu:这团队太厉害了,克里斯是 Pulsar 的创造者,Pulsar 是 Cautious Flats 之前的一个早期项目,涉及很多可微渲染的工作。还有贾斯汀·约翰逊,他之前是你的学生,有很强的系统工程思维,实现了实时神经风格迁移。本·米尔登霍尔是 NeRF 论文的作者,这真是一支超级精英团队,而且确实需要这样的团队。

我们刚才聊过,在某种程度上,视觉问题比语言问题更难,这么说可能有点争议,因为LLM本质上处理的是一维的数据,但你要处理的是理解大量的三维结构,为什么会这么难?而且在研究进度上,视觉也落后于语言研究。

李飞飞:谢谢你理解我们这个问题有多难!语言本质上是一维的,音节是按顺序排列的,这就是为什么序列到序列模型如此经典。

还有一点人们可能没有意识到,语言是纯粹生成式的。自然界中并没有语言,你摸不到、看不到语言,语言完全是从人的大脑中产生的,这是一种纯粹的生成式信号,你把它写在纸上,它才会有形。

但语言的生成、构建和应用都是非常具有生成性的,而现实世界要复杂得多。首先,真实世界是三维的,如果加上时间维度就是四维。但我们先只考虑空间维度,它本质上是三维的,所以从组合复杂度来说,这就是一个难度大得多的问题。

其次,对视觉世界的感知和接收是一种投影过程,不管是通过眼睛、视网膜还是相机,都是把三维的世界投影到二维上。要知道这有多难,这在数学上是一个病态问题。 所以这就是为什么人类和动物有多种传感器,需要去解决这个问题。

第三,现实世界并非完全可生成的。我们可以生成虚拟的3D世界,但它仍需遵循物理规律等等。不过,外面还有一个真实的世界。现在突然要在生成和重建之间流畅切换,而且用户行为、实用性和应用场景都大不相同。如果完全偏向生成,我们可以聊聊游戏和元宇宙之类的,如果完全偏向现实世界,那就是在聊机器人技术之类的,但所有这些都处于作为空间智能的世界建模的连续谱上。当然,大家都避而不谈的问题是,互联网上有大量的语言数据,那空间智能的数据在哪里?

这些数据当然都在我们的脑子里,但不像语言数据那样容易获取,这就是事情如此困难的原因。但坦率地说,这让我很兴奋,因为如果事情容易,别人早就解决了。我的整个职业生涯都在攻克那些难到近乎妄想的问题,这就是那个近乎妄想的问题,感谢你支持我。

Diana Hu:从第一性原理来思考,人类大脑的视觉皮层中有比处理语言更多的神经元来处理视觉数据。这在模型中是如何体现的?从你目前的发现来看,它的架构和LLM有很大不同。

李飞飞:这是个非常好的问题。外面有不同的观点,有LLM,我们在LLM中看到的很多成果,实际上是把规模定律运用到极致,几乎可以通过强力的自监督一路构建世界模型,这可能更微妙一些。世界结构更复杂,可能需要一些信号来引导,可以称之为先验知识,也可以说是数据中的监督信息。我认为这些都是我们必须解决的开放性问题。

首先,我们对人类感知也并非完全了解,人类视觉中的3D原理都还没有解决。从机械原理上说,双眼要对信息进行三角测量。即便如此,数学模型在哪里?人类作为3D动物没那么厉害,有很多问题有待解答。我真的只指望一件事,就是拥有像素领域最聪明的人来解决这个问题。

Diana Hu:可以说你们在 World Labs 构建的是全新的基础模型,其输出是3D世界,你预想的一些应用有哪些?我记得你提到了从感知到生成的各种应用,生成模型和判别模型之间一直存在张力,那么这些3D世界能有什么作用?

李飞飞:关于 World Labs 本身的细节我不能透露太多,但就空间智能而言,它的用途非常广泛,就像语言一样,从创作角度,可以想到设计师、建筑师、工业设计师,还有艺术家、3D艺术家、游戏开发者,从创作到机器人技术、机器人学习,空间智能模型或世界模型的实用性非常大,而且与之相关的行业众多,从营销到娱乐,甚至到元宇宙。

我真的对元宇宙很兴奋,我知道很多人觉得它还不行,但这就是我兴奋的原因,我认为硬件和软件的融合即将到来,这也是未来的一个很棒的应用场景。

Diana Hu:你正在攻克元宇宙问题,我个人对此非常兴奋,我之前的公司也尝试过,所以我很高兴你现在在做这件事。

李飞飞:我认为有更多积极信号。硬件确实是个障碍,但你需要内容创作,而元宇宙的内容创作需要世界模型。

Diana Hu:对一些听众来说,你从学术界转型成为创始人兼CEO可能有些突然。但实际上你一生经历非凡,这不是你第一次从0到1创业。你和我提到过,你十几岁移民到美国时不会说英语,后来还经营了多年洗衣店,能讲讲这些经历如何塑造了现在的你吗?

李飞飞:我相信你们是来听如何开洗衣店的。

Diana Hu:那是你19岁的时候对吧?

李飞飞:是的,那是出于无奈。我没有办法养家、供养父母,而我想上大学,去普林斯顿学物理,后来我就开了一家不错的干洗店,用硅谷的话说,我筹集资金,我是创始人、CEO,我也是收银员,什么都得干,七年后我把店转手了。我从未因为我的自助洗衣店获得过欢呼,谢谢你们的掌声(笑)。

我看着台下,特别为你们兴奋,因为你们年龄只有我的一半,甚至可能只有我年龄的30%,你们这么有才华,放手去做吧,别害怕。

我整个职业生涯,即使作为一名教授,我也选择过几次,去那些我是第一个计算机视觉教授的院系。这违背了很多人的建议,作为年轻教授,你应该去有学术社群和资深导师的地方。我也想有资深导师,但如果没有,我得开拓自己的道路,所以我不害怕。

后来我去了谷歌,在谷歌云学习了很多商业知识,包括企业对企业业务等。2018年左右,我在斯坦福大学创办了一家初创公司,因为当时 AI 不仅席卷了整个行业, AI 还成了人类面临的问题。人类总会引导科技发展,但我们不能失去人性,我真的很在乎在 AI 发展进程中创造积极的影响。

我在想如何让 AI 以人类为中心,如何创造能帮助人类的 AI 。所以我回到斯坦福,创办了以人为本的 AI 研究所,并像经营初创公司一样管理了5年。可能有些人不太高兴我在大学把它当初创公司来经营,但我为此感到非常自豪,在某种程度上,我就是喜欢当创业者。

我喜欢从零开始的感觉,就像站在起点。忘掉你过去的成就,忘掉别人对你的看法,埋头苦干,这就是我的舒适区,我就喜欢这样。

Diana Hu:除了你所取得的所有了不起的成就之外,另一件很酷的事是,你指导了很多传奇的研究人员,比如安德烈亚·卡帕西、英伟达的范丞、在 Image Net 项目上的合著者贾丹,他们后来都有了令人瞩目的职业生涯。在他们还是学生的时候,有什么特别之处?你能给听众一些建议,怎样看出一个人会改变 AI 领域吗?

李飞飞:首先,我才是幸运的那个。我觉得我从学生身上学到的比他们从我这里学到的更多,他们真的让我成为一个更好的人、更好的老师、更好的研究员。能和这么多传奇学生一起工作,是我一生的荣幸。他们各不相同,有些是纯粹的科学家,埋头解决科学问题,有些是行业领袖,有些是 AI 知识的杰出传播者。

我认为有一点是他们共有的,我鼓励每个人都思考这一点。对于那些招聘的创始人来说,这也是我的招聘标准,我看重的是智识上的无畏。你来自哪里不重要,我们要解决的问题是什么也不重要,那种勇于接受困难、全身心投入并以自己的方式努力解决问题的勇气和无畏精神,才是成功人士的核心特质。我从他们身上学到了这一点,我也真的在寻找有这种特质的年轻人,作为 World Labs 的 CEO,我招聘时就看重这种品质。Diana Hu:你们在 World Labs 也在大量招人,所以你们也在寻找具备同样能力的人才,对吧?

李飞飞:太好了,我得到了 Diana 的许可!没错,我们正在大量招聘工程人才、产品人才、3D人才和生成式模型人才。如果你觉得自己无所畏惧,并且热衷于解决空间智能问题,欢迎和我聊聊或者访问我们的网站。

Diana Hu:很酷,接下来10分钟是开放提问环节。

观众A :教授,感谢您精彩的演讲,我是您的超级粉丝。我的问题是,二十多年前,您从事视觉识别研究,我想开始攻读博士学位,我应该研究什么才能像您一样成为传奇人物?

李飞飞:我想给你一个深思熟虑的答案,因为我也可以简单地说,做任何让你兴奋的事情。首先,我认为 AI 研究已经发生了变化,因为如果你要攻读博士学位,意味着你要进入学术界,而如今学术界已不再掌握大部分的 AI 资源。这和我那个时候大不相同,在学术界,芯片、计算资源和数据都非常有限,而且有些问题,工业界能够解决得更快。

所以作为一名博士生,我建议你去寻找那些不会与工业界形成竞争的研究方向,工业界可以利用更好的计算资源、数据和团队协作来更有效地解决问题。但在学术界,我们仍然可以发现一些真正根本性的问题,而这些问题的解决与你拥有多少芯片无关,你可以取得很大进展。

首先,对我来说,跨学科 AI 在学术界是一个非常令人兴奋的领域,尤其是在科学发现方面,有很多学科都可以与 AI 交叉,我认为这是一个大有可为的领域。

从理论层面来看,我发现 AI 的能力已经远远超越了理论,这令人着迷。我们没有可解释性,我们也不知道如何找出因果关系,模型中有太多我们不理解的地方,值得去深入研究。另外,在计算机视觉领域,仍然存在一些表征问题有待解决。此外,小数据也是另一个非常有趣的领域。这些都是可行的研究方向。

观众B :感谢李教授,再次祝贺您获得耶鲁大学的荣誉博士学位,一个月前我很荣幸见证了那个时刻。我的问题是,在您看来,AGI 更有可能以单一统一模型的形式出现,还是以多智能体系统的形式出现?

李飞飞:你提出这个问题的方式实际上包含了两种定义。其中一种是定义更偏理论性,也就是将 AGI 定义为通过某种智商测试来判定 AGI 。问题的另一部分则更偏实用主义,如果是基于智能体的,它是否具有功能性?它能完成哪些任务?

说实话,我对 AGI 的定义感到很困惑。原因如下:1956年在达特茅斯相聚的 AI 先驱们,比如约翰·麦卡锡和马文·明斯基,他们想要解决机器思考的问题,而艾伦·图灵在几年前,比他们早10年左右也提出过类似的问题,当时提出的这个问题并非狭义的 AI ,而是关于智能的一个更广泛的概念。所以我不太清楚如何区分 AI 和 AGI 这两个词的含义,对我来说,它们是一回事。但我明白,如今这个行业喜欢称AGI,好像它超越了AI,我对此很困惑,因为我不清楚 AGI 和 AI 有什么不同。如果说如今类似 AGI 的系统比起八十年代、九十年代那些狭义 AI 系统表现更好,我认为这没错,这只是这个领域的发展进程。

但从根本上说,我认为 AI 的科学就是智能的科学,就是能创造出能像人类一样,甚至比人类更智能地思考和做事的机器,所以我不知道如何定义AGI,在没有定义它的情况下,我也不知道它是否是单一的。如果你把大脑看作一个整体,你可以说它是单一的,但它确实有不同的功能,甚至还有负责语言的布洛卡区、视觉皮层和运动皮层,我确实不知道该如何回答这个问题。

观众C :嗨教授,我只想说声谢谢。看到一位女性在这个领域发挥主导作用,这真的很鼓舞人心。作为一名研究员、教育者和企业家,我想问,您认为在 AI 迅速崛起的当下,什么样的人适合攻读研究生学位?

李飞飞:这是个很棒的问题,甚至连家长们都会问我这个问题。我真的觉得研究生阶段的四五年是你充满强烈好奇心的时期,你被好奇心驱使,这种好奇心如此强烈,以至于没有比这里更好的地方能让你去探索了。这和创业不同,因为创业你必须稍微谨慎一些,创业不能仅仅由好奇心驱动,你的投资者会对你不满的。

创业公司拥有更明确的商业目标,其中一部分是好奇心,但又不完全是。而对于研究生阶段来说,解决问题或提出恰当问题的好奇心非常重要,我认为那些带着强烈好奇心入学的人会真正享受这四五年,即使外面的世界飞速发展,你依然会很开心,因为你在跟随自己的好奇心前行。

观众D :感谢您抽出时间来和我们分享。您提到开放源代码是 ImageNet 发展的重要因素。如今随着LLM的发布和发展,我们看到不同组织在开源方面采取了不同的方式,有些组织完全闭源,有些组织完全公开其整个研究代码库,有些则处于两者之间,比如开源模型权重或采用有一定限制的许可证等。所以我想问,您如何看待这些不同的开源方式,您认为 AI 公司进行开源的正确方式是什么?

李飞飞:我认为当存在不同的方式时,整个生态系统才是健康的。我并不偏执地认为必须开源或者必须闭源,这取决于公司的商业战略。例如,很明显为什么Facebook 或是 Meta 想开源,他们目前的商业模式还不是售卖模型,他们是用它来发展生态系统,从而促使人们使用他们的平台,所以开源很有意义。

而另一家靠这个盈利的公司,甚至在盈利方面,你可以考虑设置开源版本和闭源版本,所以我对此都持开放态度。从更宏观的层面来说,我认为开源应该得到保护,我觉得无论是公共部门,比如学术界还是私营部门的开源努力都非常重要,这对创业生态系统很重要,对公共部门也很重要,我认为应该在技术上给予保护,而不应该受到惩罚。

观众E :我想问个关于数据的问题,您详细地阐述了机器学习向以数据驱动方法的转变,就像 ImageNet 那样。现在您在研究世界模型,您提到互联网上没有这种空间数据,它只存在于我们的大脑中,您是如何解决这个问题的?您押注在哪方面?是从现实世界收集这些数据,还是在生成合成数据?您是否相信合成数据,还是相信传统的先验知识?李飞飞:你应该加入 World Labs,我会告诉你的 。作为一家公司,我不能透露太多,但我认为重要的是承认我们正在采取一种混合方法。拥有大量数据固然重要,但拥有大量高质量的数据也同样重要。归根结底,如果你不注意数据质量,那还是会“输入垃圾,输出垃圾”。

观众F :在您的书《我眼中的世界》里,您谈到了作为一名移民女性在理工科领域所面临的挑战。我很好奇,您是否有过在工作场所感觉自己是少数群体的时刻,如果有的话,您是如何克服这种情况或说服他人的?

李飞飞:感谢你的问题。我想非常谨慎和周到地回答你的问题,因为我们都来自不同的背景,每个人的感受都很独特。你知道,其实大的类别是什么几乎都不重要。我们每个人都有感觉自己是少数群体或者是房间里唯一异类的时刻,当然我也有过这样的感受。有时候是因为我自身的身份,有时候是因为我的想法,有时候是因为衬衫颜色之类的。

但在这里我想鼓舞大家,可能是因为我从小就来到了这个国家,我已经接受了现实,我就是一个移民女性,我几乎培养出了一种不过分在意这一点的能力,我和你们每个人一样,来到这里就是为了学习、做事、创造。

真的,你们所有人,即将开启或者正在开启某件事的过程中,你们会有脆弱或奇怪的时刻,我每天都在感受这点,尤其是在创业的时候。有时候我就想,天哪我不知道自己在做什么。专注去做就好,用梯度下降法让自己找到最优解。

Diana Hu:谢谢飞飞,这是个很棒的结尾。

点个爱心,再走 吧

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10