炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:智东西)
智东西
编译 陈骏达
编辑 Panken
智东西8月16日消息,近日,OpenAI联合创始人兼总裁Greg Brockman在世界AI工程师大会上,分享了他对AI技术发展瓶颈、科研与工程关系等AI关键议题的最新看法。作为2015年便入局AI的行业老兵,在回答主持人关于GPT-6发展挑战的问题时,Brockman提出了一项十分重要的观察:
随着算力和数据规模的快速扩展,基础研究正在回归,算法的重要性再次凸显,成为未来AI技术发展的关键瓶颈。
对Brockman而言,这并非坏事。他觉得整天围绕Attention is All You Need这一经典论文和Transformer做文章已经有些乏味,智力上难免让人觉得“不过瘾”。目前,强化学习已成为算法研究的新方向之一,但他也意识到,仍存在许多明显的能力缺口。
工程与科研,是驱动AI发展的两大引擎。工程师出身的Brockman认为,工程师的贡献与研究人员不相上下,甚至在某些方面更为重要。如果没有科研创新,就无事可做;如果没有工程能力,那些想法就无法实现。
OpenAI从一开始就坚持工程与研究同等看待,而两者的思维方式又有所不同。对新加入OpenAI的工程师,Brockman的第一堂课便是:保持技术上的谦逊,因为在传统互联网大厂行之有效的方法,在OpenAI未必适用。
产品与科研间的资源协调,也是OpenAI时常面临的问题。Brockman在访谈中承认,为了支撑产品上线的海量算力需求,OpenAI不得不以几乎是“抵押未来”的方式,借调部分本应用于科研的算力。不过,他认为这一取舍是值得的。
Brockman还在访谈中回顾了自己童年时期对数学的兴趣,再到转向编程,从哈佛转校至MIT,最终辍学加入金融科技创企Stripe的经历。由于篇幅所限,实录并未包含这部分内容。
在采访的尾声,Brockman回答了来自英伟达创始人兼CEO黄仁勋的两个问题,分别涉及未来AI基础设施的形态与开发流程的演变。
Greg Brockman的这场采访录制于今年6月,以下是部分精彩内容的整理(智东西在不改变原意的前提下,进行了一定程度的增删修改):
一、工程师与研究人员同等重要,加入OpenAI第一课是技术谦逊
主持人:2022年时你说,现在是成为机器学习工程师的时候了,伟大的工程师能够在与伟大的研究人员相同的水平上为未来的进步做出贡献。这在今天还成立吗?
Greg Brockman:我认为工程师做的贡献和研究人员是相仿的,甚至更大。
一开始,OpenAI在早期就是一群博士毕业的研究科学家,提出一些想法并进行测试,工程对这些研究是必不可少的。AlexNet本质上是“在GPU上实现快速卷积内核(convolutional kernels)”的工程。
有趣的是,当时在Alex Krizhevsky实验室的人实际上对这一研究不以为然,他们觉得AlexNet只是用于某个图像数据集的快速内核,并不重要。
但Ilya说:“我们可以将其应用于ImageNet。效果肯定会很好。”这一决定将伟大的工程与理论创新结合了起来。
我认为,我之前的看法至今依然有效。现在,业界所需的工程不仅仅是打造特定的内核,而是构建完整的系统,将其扩展到10万块GPU,打造强化学习系统,协调好各个部分之间的关系。
如果没有创新的想法,就无事可做;如果没有工程能力,那个想法就无法实现。我们要做的是将两个方面和谐地结合在一起。
Ilya和Alex的关系,是研究与工程合作的象征,这种合作现在是OpenAI的哲学。
OpenAI从一开始就认为工程和研究同等重要,两个团队需要紧密合作。研究和工程之间的关系也是永远无法完全解决的问题,解决了当前水平的问题后,会面临更复杂的问题。
我注意到,我们遇到的问题,基本与其他实验室面临的情况相同,只是我们可能会走得更远,或出现一些不同的变体。我认为,这背后有一些根本性原因。在一开始,我明显感受到工程背景与研究背景的人,对系统约束的理解,差异很大。
作为工程师,你会认为:“如果接口已经确定,那就不必关心它背后的实现,我可以按任何我想要的方式来实现它。”
但作为研究人员,你会想:“如果系统的任何部分出现错误,我看到的只是性能稍有下降,没有异常提示,也不知道错误在哪。我必须对整段代码负责。”除非接口非常稳固、可以完全信赖——这是个很高的标准——否则研究人员就得对这段代码负责。这种差异常常带来摩擦。
我曾在一个早期项目中看到,工程师写好代码后,研究人员会对每一行进行大讨论,进度极为缓慢。后来,我们改变了做法,我直接参与项目,一次提出五个想法,研究人员会说其中四个不行,而我会觉得这正是我想要的反馈。
我们意识到的最大价值,也是我常对来自工程界的OpenAI新同事强调的,就是技术上的谦逊。
你带着宝贵技能进入这里,但这是与传统互联网初创公司截然不同的环境。要学会分辨什么时候可以依赖原有直觉,什么时候需要放下它们,这并不容易。
最重要的是,保持谦逊,认真倾听,并假设自己还有未理解的地方,直到真正明白原因。那时再去改变架构、调整抽象层。真正理解并带着这种谦逊去做事,是决定成败的关键因素。
二、部分科研算力被调给产品,OpenAI有时不得不“抵押未来”
主持人:我们来谈谈OpenAI最近的一些重大发布,也分享几个有趣的故事。其中一个特别值得一提的,是关于扩展性的问题——在不同数量级上,一切都有可能崩溃。
ChatGPT发布时,仅用五天就吸引了100万用户;而今年4.0版本的ImageGen发布后,同样在五天内,用户数便突破了1亿。这两个阶段相比,有哪些不同之处?
Greg Brockman:它们在很多方面都很相似。ChatGPT原本只是一次低调的研究预览,我们悄悄发布,却很快出现了系统崩溃的情况。
我们预料它会受欢迎,但当时认为需要等到GPT-4才能真正达到这种热度。内部同事早已接触过它,所以并不觉得惊艳。
这也是该领域的一个特点——更新节奏很快。你可能刚刚看到“这是我见过的最神奇的东西”,下一刻就会想:“为什么它不能一次合并10个PR(拉取请求)呢?”ImageGen的情况与之类似,发布后极受欢迎,传播速度和用户增长都令人难以置信。
为了支撑这两次发布,我们甚至打破惯例,从研究中抽调部分计算资源用于产品上线。这相当于“抵押未来”,以使系统正常工作,但如果能按时交付并满足需求,让更多人体验到技术的魔力,这种取舍是值得的。
我们始终坚持同样的理念——为用户提供最佳体验,推动技术发展,创造前所未有的成果,并尽全力将它们推向世界,取得成功。
三、AI编程不止“炫技”,正向严肃软件工程转型
主持人:“氛围编程”(vibe coding)现在这已经成为了一种现象。你对它有什么看法?
Greg Brockman:氛围编程作为一种赋能机制,非常神奇,也体现了未来的发展趋势。它的具体形式会随着时间推移不断变化。
即使是像Codex这样的技术,我们的愿景也是:当这些Agent真正投入使用时,不仅仅是一个或十个副本,而是可以同时运行成百上千、甚至十万的Agent。
你会希望像对待同事一样与它们协作——它们在云端运行,能连接到各种系统。即使你睡觉、笔记本电脑关机,它们仍能继续工作。
目前,人们普遍将氛围编程视为一种交互式循环,但这种形态将会改变。未来的交互会越来越多,同时Agentic AI将介入并超越这种模式,从而推动更多系统的构建。
一个有趣的现象是,许多氛围编程的演示都集中在制作有趣的应用或恶搞网站等“酷炫”项目上,但真正新颖且具有变革性的是,AI已经开始能够改造和深入现有应用。
许多公司在处理遗留代码库时,需要迁移、更新库、将COBOL等旧语言转换为现代语言,这既困难又乏味,而AI正逐步解决这些问题。
氛围编程的起点是“做一些很酷的应用”,而它正在向严肃的软件工程演进——尤其是在深入现有系统并进行改进的能力上。这将让企业更快发展,而这正是我们的前进方向。
主持人:我听说Codex对你来说有点像“亲手养大的孩子”。你从一开始就强调要让它模块化、文档完善。你认为Codex会怎样改变我们的编程方式?
Greg Brockman:说它是我的“孩子”有点言过其实。我有一个非常出色的团队,一直在努力支持他们及其愿景。这个方向既令人着迷,又充满潜力。
最有趣的一点是,代码库的结构,决定了能从Codex中获得多少价值。
现有代码库大多是为了发挥人类的优势而设计的,而模型更擅长处理多样化的任务,不像人类那样能深度连接概念。如果系统能更契合模型的特点,效果会更好。
理想的做法是:将代码拆分成更小的模块,编写快速可运行的高质量测试,然后由模型来填充细节。模型会自行运行测试并完成实现。组件之间的连接(架构图)相对容易构建,而细节填充往往最困难。
这种方式听起来像是良好的软件工程实践,但现实中,由于人类可以在脑中处理更复杂的概念抽象,往往会省略这一步。编写和完善测试是一项繁重的任务,而模型可以比人类多运行100倍甚至1000倍的测试,从而承担更多工作。
在某种意义上,我们希望构建的代码库更像是为初级开发人员而设计的,以便最大化模型的价值。当然,随着模型能力的提升,这种结构是否仍然最优,将会是一个有趣的问题。
这一思路的好处在于,它与人类为了可维护性本应遵循的实践一致。软件工程的未来可能需要重新引入那些我们为了走捷径而放弃的做法,从而让系统发挥最大价值。
四、训练系统愈加复杂,检查点设计需同步更新
问:我们现在执行的任务往往耗时更长、占用更多GPU,而且可靠性不高,经常出现失败,导致训练中断。这一点众所周知。
不过你提到过,可以重新启动一次运行,这没问题。但当你需要训练具有长期轨迹的Agent时,该如何应对?因为如果轨迹本身具有非确定性,且已经进行到一半,就很难真正从头重启。
Greg Brockman:随着模型能力的提升,你会不断遇到新问题、解决问题、再遇到新的挑战。
当运行时间很短时,这些问题并不显著;但如果任务需要运行几天,就必须认真考虑如何保存状态等细节。简而言之,随着训练系统复杂度增加,这类问题必须得到重视。
几年前,我们主要关注传统的无监督训练,保存检查点相对简单,但即便如此,也并非易事。如果要从“偶尔保存检查点”转为“每一步都保存”,就必须严肃考虑如何避免数据复制、阻塞等问题。
在更复杂的强化学习系统中,检查点仍然重要,比如保存缓存以避免重复计算。我们的系统有个优势:语言模型的状态相对明确,易于存储和处理。但如果连接的外部工具本身有状态,就可能无法在中断后顺利恢复。
因此,需要端到端地规划整个系统的检查点机制。或许在某些情况下,中断并重启系统、让结果曲线出现一些波动是可以接受的,因为模型足够智能,可以应对这种情况。我们计划推出的新功能,就是允许用户接管虚拟机,保存其状态后再恢复运行。
五、做AGI不仅是做软件,还需同步打造超级计算机
黄仁勋:真希望我能在现场亲自向你提问。在这个新的世界里,数据中心的工作负载和AI基础设施将变得极其多样化。一方面,有些Agent进行深度研究,负责思考、推理和规划,并且需要大量内存;另一方面,有些Agent需要尽可能快速地做出响应。
如何构建一个AI基础设施,使其既能高效处理大量预填充任务、大量解码任务以及介于两者之间的工作负载,同时又能满足那些需要低延迟、高性能的多模态视觉和语音AI的需求?这些AI就像你的R2-D2(星球大战中的机器人),或你的随时可用的伴侣。
这两类工作负载截然不同:一种超级计算密集,可能运行很长时间;另一种要求低延迟。未来理想的AI基础设施是什么样的呢?
Greg Brockman:当然,这需要大量的GPU。如果我要总结的话,老黄希望我告诉他应该建造什么样的硬件。
有两类需求:一类是长期、大规模计算需求,另一类是实时、即时计算需求。这确实很难,因为这是一个复杂的协同设计问题。
我是做软件出身的,我们最初以为只是在开发AGI(通用人工智能)软件,但很快就意识到,要实现这些目标,就必须建设大规模的基础设施。
如果我们想打造真正改变世界的系统,可能需要建造人类历史上最大的计算机,这在某种程度上是合理的。
一种简单的做法是,确实需要两类加速器:一种追求计算性能最大化,另一种追求极低延迟。在一类上堆叠大量高带宽存储器(HBM),另一类上堆叠大量计算单元,这样就基本解决问题。真正难的是预测两类需求的比例。如果平衡失误,部分机群可能会变得无用,这听起来很可怕。
不过,由于这个领域没有固定规则和约束,主要是优化问题,如果工程师资源配置出现偏差,我们通常也能找到办法利用这些资源,尽管可能付出较大代价。
例如,整个行业都在转向混合专家模型(Mixture-of-Experts)。某种程度上,这是因为部分DRAM被闲置了,我们就利用这些闲置资源增加模型参数,从而提高机器学习计算效率,而不会增加额外计算成本。所以,即使资源平衡出错,也不至于造成灾难。
加速器的同质化是一个良好的起点,但我认为,最终为特定用途定制加速器也是合理的。随着基础设施资本支出达到惊人的规模,对工作负载进行高度优化也变得合理。
但业界还没有定论,因为研究发展速度非常快,而这又在很大程度上主导了整个方向。
六、基础研究正在回归,算法取代数据、算力成为关键瓶颈
问:我本来没有打算问这个问题,但你提到了研究。你能对GPT-6扩展过程中面临的瓶颈进行排名吗?计算、数据、算法、电力、资金。哪几个是第一和第二?OpenAI最受限于哪一个?
Greg Brockman:我认为,我们现在正处于一个基础研究回归的时代,这令人非常兴奋。曾经有一段时间,人们的关注点是:我们有了Transformer,那就不断扩展它。
在这些明确的问题中,主要任务只是提高指标,这固然有趣,但在某种程度上也令人感到在智力上不够具有挑战性,不让人满足。生活中不应只有“Attention is All You Need”原始论文的思路。
如今,我们看到的情况是,随着算力和数据规模的快速扩展,算法的重要性再次凸显,几乎成为未来进步的关键瓶颈。
这些问题都是基础而关键的环节,虽然在日常看起来可能有些不平衡,但从根本上,这些平衡必须保持。看到强化学习等范式的进展非常令人振奋,这也是我们多年来有意识投资的领域。
当我们训练GPT-4时,第一次与它交互时,大家都会想:“这是AGI吗?”显然还不是AGI,但又很难明确说明为什么不是。它表现得非常流畅,但有时会走上错误的方向。
这说明可靠性仍是一个核心问题:它从未真正体验过这个世界,更像是一个只读过所有书籍或仅通过观察世界来了解的人,与世界隔着一扇玻璃窗。
因此,我们意识到需要不同的范式,并持续推动改进,直到系统真正具备实际能力。我认为,这种情况至今仍然存在,还有许多明显的能力缺口需要弥补。只要持续推进,我们终将达到目标。
七、“多样化模型库”逐渐成形,未来经济将由AI驱动
黄仁勋:对于在场的AI原生工程师来说,他们可能在想,未来几年,OpenAI将拥有AGI(通用人工智能),他们将在OpenAI的AGI之上构建特定领域的Agent。随着OpenAI的AGI变得越来越强大,他们的开发流程将如何改变?
Greg Brockman:我认为这是一个非常有趣的问题。可以从非常广泛的角度去看,观点坚定但互不相同。我的看法是:首先,一切皆有可能。
也许未来AI会强大到我们只需让它们编写所有代码;也许会有在云端运行的AI;也许会有许多特定领域的Agent,需要大量定制工作才能实现。
我认为趋势正在向这种“多样化模型库”的方向发展,这非常令人兴奋,因为不同模型有不同的推理成本,从系统角度来看,蒸馏技术发挥得很好。实际上,很多能力来自于一个模型能调用其他模型的能力。
这将创造大量机会,我们正走向一个由AI驱动的经济。虽然我们还未完全到达,但迹象已经显现。当前在场的人正在构建这一切。经济系统非常庞大、多样且动态。
当人们设想AI的潜力时,很容易只关注我们现在在做的事情,以及AI与人类的比例。但真正重点是:如何让经济产出提升10倍,让每个人都获得更大收益?
未来,模型将更加强大,基础技术更完善,我们会用它做更多事情,进入门槛也将更低。
像医疗领域,不能简单应用,需要负责任地思考正确做法;教育领域涉及家长、教师和学生,每个环节都需要专业知识和大量工作。
因此,将会有大量机会去构建这些系统,在场的每一位工程师,都拥有实现这一目标的能量。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.