硬核“吵”了30分钟：这场大模型圆桌，把AI行业的分歧说透了

什么？2025 年世界人工智能大会（WAIC）第二天，几位行业大佬“吵”起来了。

是的，你没听错！他们“吵架”的热度，堪比盛夏的天气，直逼 40 度高温。

事情的起因是在一场圆桌论坛上，刚聊到模型训练范式，大家就展开了尖峰辩论。

但这场关于训练范式的思想碰撞，很快转移到了模型架构、训练数据、开闭源等尖锐的问题上。每个问题都深入大模型发展的核心要害。

最直观的感受：“这是 AI 行业顶流的公开 battle，我愿称之为今年最硬核‘吵架’现场。”台上嘉宾你来我往，台下观众掌声不断。

而这场圆桌论坛，是由商汤科技承办的 WAIC 2025 大模型论坛的“模型之问”圆桌 —— 探讨的是“大模型技术演进与发展之路”。

圆桌主持人由商汤科技联合创始人、执行董事、首席科学家林达华担任主持。嘉宾阵容堪称当前大模型生态的多路代表：包括阶跃星辰首席科学家张祥雨，上海人工智能实验室青年领军科学家、书生大模型负责人陈恺，北京智谱华章科技股份有限公司总裁王绍兰，范式集团联合创始人、首席科学官陈雨强，英伟达全球开发者生态副总裁 Neil Trevett。

可以说这场论坛汇聚了来自基础模型研发、行业落地应用、算力平台等多个关键环节的代表性力量，是一次不同路径、不同视角的深入对话。

在这场 30 分钟的对话中，每一位嘉宾发言的背后，既是对技术路线的选择，也关乎产业未来的走向，值得每一个人深思。

一开场，林达华表示：“大模型技术发展到今天，可以说是在繁花似锦的背后，我们也进入到了一个十字路口。过去大半年的时间里，大模型的技术格局经历了一个重要的范式转变。从最初以预训练为主、监督学习为辅的模式 —— 这一范式由 OpenAI 所开创 —— 逐渐向注重推理能力提升的强化学习范式过渡。这个转变标志着 AI 领域在技术上的进一步演化。”

随着这个观点的抛出，这场围绕大模型的圆桌论坛正式拉开帷幕。

预训练与强化学习

在大模型爆发初期，基本是以预训练为主，比如 OpenAI 发布 GPT-4o 时，当时所有的计算资源都投入在预训练上。很多人认为如果预训练不足，模型能力上限将被锁死。

随着 o1 的发布，OpenAI 提出在预训练好的模型上，用强化学习做后训练（PostTraining），能显著提高模型推理能力。如下图左边显示随着训练时间的增加，模型性能随之提升。这种走势是每个训练 AI 模型的人都熟悉的。

右边表明在“测试时间”增加时，模型的表现也会得到改善。这一发现代表了一个全新的扩展维度 —— 不仅仅是训练时间扩展，还包括测试时间扩展，用到的训练方法主要是强化学习。

o1 的技术博客中展示了一张图表：准确度和测试时计算之间存在对数线性关系，o1 的性能随着训练时间和测试时的计算而平稳提高

在 OpenAI 看来，未来强化学习计算可能会成为主导。

从 GPT-4o 到 o1 范式的转变，不禁让我们思考，原本由 OpenAI 所开创的以预训练为主、监督学习为辅的范式，现在逐渐转向了更加注重推理能力提升的强化学习范式。此外，OpenAI 前首席科学家伊利亚也提出了类似观点，预训练时代即将终结。

随着推理模型的崛起，强化学习越来越得到大家重视。因此一个值得深思的问题被提出，预训练和强化学习我们应该怎么平衡？

张祥雨首先肯定了这套范式的合理性（从预训练到监督微调再到 RL）。对于预训练而言，本质就是压缩语料的一个过程，之后在模型内部形成一个更加紧凑的表示。这个表示对模型学习世界知识和建模非常有帮助。

但与此同时，预训练通常基于 Next Token 预测，这其实是一种行为克隆的形式。而行为克隆传统上被认为存在一些难以规避的问题 —— 比如无论你用了多少数据、模型做得多大，它都很难真正建立起目标导向的推理能力。

因为压缩只是尽可能复现已有内容，而推理本质上是要求模型能找到一条逻辑自洽、通向目标的因果链。因此，RL 应运而生。

张祥雨还指出了未来这条范式的发展方向，他认为如何进一步扩展 RL，使其能够接受自然语言反馈，而不仅仅是像数学、代码这种确定性反馈很关键。

在张祥雨的分享中，我们捕捉到了一个非常重要且值得深思的技术范式拓展，那就是将强化学习进一步延伸到大规模预训练。特别是在推理阶段（即 Test Time）使用强化学习来增强推理性能，这确实是一个非常具有启发性的建议。

陈恺则强调了预训练的重要性。他表示，强化学习之所以能够大放异彩，是因为它依赖于一个强大的冷启动模型。过去，冷启动模型可能依赖于预训练和监督学习（SFT），但现在大家对预训练的重视程度逐渐提高。预训练为强化学习提供了一个良好的基础，使其能够探索多种未来的可能性，从而发挥其应有的作用。

陈恺进一步讨论了强化学习未来面临的挑战，即奖励或反馈机制的问题。这个问题将成为强化学习进一步拓展到更多任务时的一个关键挑战。目前，强化学习主要用于解决一些有明确答案的任务，比如填空和问答题，但实际上，许多有效且有价值的任务并没有唯一确定的答案（这和张祥雨的观点类似）。因此，强化学习需要探索新的奖励和反馈机制，这可能依赖于新的评价标准，或者通过与环境的实际交互反馈来形成奖励体系。

此外，陈恺还表示强化学习也给基础设施带来了新的挑战。尽管强化学习已经取得了一些进展，但从效率上来看，仍然存在较大的提升空间。强化学习需要大量算力，且模型需要不断进行探索和学习。如果未来强化学习开始依赖更多的交互反馈，这对基础设施的要求将会更高，对相关技术和资源的挑战也将更加严峻。

Transformer 架构与非 Transformer 架构

在整个模型研发过程中，训练范式是非常重要的一部分，而训练范式又依托于高效的模型架构。

从 2017 年至今，Transformer 统治 AI 领域已经八年之久。如果从 2019 年的 GPT-2 出发，回顾至 2024–2025 年的 ChatGPT、 DeepSeek-V3 、LLaMA 4 等主流模型，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构基本保持高度一致。

然而，随着模型参数飙升至千亿级、上下文窗口拉伸至百万 Token，Transformer 的一些限制开始显现。比如，其最大的问题是自注意力机制的 O (n^2) 扩展性，当序列长度 n 增加时，计算量和内存占用呈平方级增长。其次，注意力机制需要存储大量中间结果和 KV 缓存，显存很快被占满；第三，Transformer 缺乏显式的长期记忆机制，导致在需要多步推理或跨文档对齐的任务上，小样本泛化能力急剧下降。

对此，业界和学界开始新的探索，他们主要沿着两条技术路线展开。

一是优化现有 Transformer 架构，例如，位置编码从最初的绝对位置发展为旋转位置编码（RoPE）；注意力机制也从标准的多头注意力逐步过渡为更高效的分组查询注意力（Grouped-Query Attention），另外在激活函数方面，GELU 被更高效的 SwiGLU 所取代。

另一条则是跳出 Transformer，探索全新架构范式。如 Mamba 系列通过状态空间模型（SSM）实现线性复杂度的长序列建模，展现出比 Transformer 更优的延迟性能与可控推理能力；RetNet、RWKV 等结构则融合了 RNN 的记忆优势与 Transformer 的并行性，力图找到效率与能力的最优平衡点。

值得注意的是，当前的大模型架构发展也呈现出混合设计趋势，如由 AI21 Labs 推出的 Jamba 就是混合架构典型，其结合了经典的 Transformer 模块和 Mamba 模块。

年初发布的 DeepSeek V3 表明，即使是优化现有 Transformer 架构，也可以大幅度降低模型训练和推理成本。这就带来一个值得深思的问题：我们是基于 Transformer 架构进行创新？还是开发非 Transformer 架构？

对于这一问题，张祥雨表示，模型架构并不是最重要的决定因素，架构是为系统和算法服务的。Transformer 架构没有问题。现在流传下来的仍然是最经典的 Transformer 架构。

但现在的问题是，算法开始向 RL 迁移，而我们的应用场景也从推理时代向智能体时代转变。而智能体最重要的特性是自主性，它必须能够主动与环境交互，并从环境中进行学习。

这就意味着，我们的模型架构需要具备类似人类的能力，能够建模一种无限流或无限上下文的能力。因此，张祥雨认为，（在智能体时代）传统模式已经遇到了阻碍，像是传统的 RNN 架构，未来短时间内可能会重新成为下一代主流架构的设计考虑之一。

真实数据与合成数据之争

但我们不可忽视的是，大模型的背后，还有数据。过去，AlexNet 及其后续工作解锁了 ImageNet，Transformer 的兴起解锁了海量的互联网数据。然而今天，我们正面临一个残酷现实：高质量语料正在趋于枯竭。随着已被爬取的内容越来越多，边际新增的优质数据正在减少。

有研究预计，如果 LLM 保持现在的发展势头，预计在 2028 年左右，已有的数据储量将被全部利用完。届时，基于大数据的大模型的发展将可能放缓甚至陷入停滞。与此同时，拥有版权、隐私等限制的数据，更是加剧了垂直领域的发展。

图源：来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》

在此背景下，合成数据被寄予厚望，国内外很多公司开始采用这种方式。比如 Anthropic 首席执行官 Dario Amodei 曾经表示，对于高质量数据耗尽的困境，Anthropic 正在尝试模型合成数据的方法，也就是使用模型生成更多已有类型的数据。这一策略也在 OpenAI、Meta、Google DeepMind 等公司的新一代模型训练中被广泛应用。

然而，合成数据在一定程度上缓解了数据难题，但它本身也引发了一系列新的挑战与隐忧。2024 年登上《自然》封面的一项研究认为如果放任大模型用生成的数据进行训练，AI 可能会崩溃，在短短几代内将原始内容迭代成无法挽回的胡言乱语。

一边是高质量数据资源日渐枯竭，另一边则是对合成数据的高度依赖与不确定性并存。

这种担忧，也发生在英伟达内部。Neil Trevett 表示，英伟达在图形生成和物理仿真方面也面临数据困扰的问题，尤其是那些无法获取、获取成本高、涉及伦理风险或隐私问题的数据。

圆桌现场，Neil Trevett 给出了英伟达的一个解决思路，利用物理仿真生成模拟场景，用来训练大模型。这种方式尤其适用于构造一些在真实世界中难以采集的边缘案例，比如交通事故场景，或者机器人遇到异常情况时的应对。

不过，Neil Trevett 也强调：不能完全依赖合成数据。用于合成数据的生成模型本身可能存在偏差、误差或盲区，因此需要建立真实世界的验证机制和反馈闭环，比如通过 human-in-the-loop 的方式，来辅助验证训练效果是否真实可用。Neil Trevett 还给出了几个非常有前景的技术路径，包括自监督学习、主动学习、混合式训练流程等。

王绍兰则给出了不一样的观点，他认为对于预训练而言，大家常提到的互联网数据耗尽，其实是一个量的问题，可能更关键的是质的问题。也就是说，当初大模型所依赖的大量互联网数据，它们的质量是否真的足够好？这需要重新审视。接下来应该是进一步提升预训练数据中的质量。

王绍兰还提到所谓数据耗尽并不像大家说的那样夸张，原因是行业数据还沉淀在行业中，没有被用来训练模型。因此大模型想要落地到行业中去，必须用行业数据进行预训练。

关于合成数据问题，王绍兰认为随着大模型场景的不断扩展，一些场景数据是极其稀缺的，甚至是完全不存在的。因此，只能依赖合成数据和仿真环境来补足。

然而，这种做法会带来一系列挑战，如果仿真不够真实，那么生成的数据也会存在偏差，最终会影响模型训练效果。因此，我们不能把合成数据看作一个万能钥匙，它有价值，但不能解决一切问题，背后仍有大量工程上的挑战需要克服。

最后，王绍兰还建议：对于行业中非敏感、非涉密的关键数据，应当考虑在行业内部建立数据共享机制或联盟组织，共同挖掘、整理这些数据，为大模型在各类实际场景中的应用提供更可靠的“弹药库”。这一建议一发出，现场掌声不断。

基础模型与 Agent 向左向右

从来不是一道单选题

进入到 2025 年，我们可以观察到一个很明显的趋势，基础模型的研发速度逐渐放缓，而以 Agent 为代表的应用成为了爆点。国内外厂商陆续推出了自动化执行任务的 Agent 产品，比如 OpenAI 推出的 Operator、深度研究以及 ChatGPT agent、智谱 AI 推出的 AutoGLM 沉思等。

这正是随着大模型进入到应用深水区以来，行业内加速构建商业闭环并着眼产业落地的真实写照。同时，对于一些以 AGI 为终极目标的厂商来说，基础模型的研发同样不会停滞。如何平衡基础模型投入与应用落地之间的关系，成为厂商在战略决策层面的核心议题。

智谱在持续迭代基座大模型 GLM 系列，覆盖语言模型、多模态模型等的同时，也积极推动大模型在各行各业的落地。面对这种双轨布局是否太分散精力的疑问，王绍兰表示两者并不冲突。

一方面，基础模型仍处于快速演进的阶段，行业普遍对当前模型成果感到振奋，但距离 AGI 的目标仍有较大差距。如果类比自动驾驶的分级，当前大模型大致处于 L3 阶段，仅完成了预训练、对齐与基础推理，并刚刚进入到了具备反思与沉思能力的深度推理阶段。未来仍需要继续进化，即使是 OpenAI 即将发布的 GPT-5，与 AGI 仍有距离。他认为，包括智谱在内，对基础模型的探索将持续下去。

另一方面，王绍兰也强调，模型的价值不应只停留在纯理论研究层面。如果不展开模型的商业化落地，它们的价值就无从体现。大模型要“用起来”，直至变成生产力革命的那一天。如今，大模型正通过 Agent 等形态拓展自身应用。同时在落地的过程中，各行各业的领军企业和生态伙伴也要具备大模型思维，积极拥抱这场范式变革。

同样地，第四范式在大模型落地方面也走在了行业前列，尤其是将 AI 技术应用于金融等重点行业。对于如何平衡基础模型的持续研发与行业应用落地，陈雨强首先指出在技术发展极为迅速的当下，要保证自身在行业中的竞争力，其中最关键的是要用好已有的开源或闭源模型。

接着，陈雨强谈到了基础模型能力以及引发的数据问题。当前，已经有超过 30% 的流量来自模型输出而非传统搜索引擎，这也导致面临人为破坏数据等风险。此外，用于评估大模型的工具（如 Arena）虽有价值，但也存在局限。很多普通用户不关心答案是否真的正确，而是像不像好答案，这就导致排版精美的算法在输出结果时得分更高，进一步加剧数据偏差问题。

最后，他提到，在企业落地中，尤其涉及金融等高敏感领域，仍存在诸多挑战。比如在反欺诈场景，基础大模型难以直接处理像每天十亿用户交易记录这样的大规模数据输入。这意味着，大模型的落地要在基础模型能力、数据质量等多个层面持续进行技术突破。

开源模型即使非最强

也能鞭策整个行业进步

除了训练范式、架构的持续进化以及解决数据瓶颈之外，开源与闭源同样影响着大模型技术路径的选择、产业生态的构建以及人工智能的格局。

一直以来，AI 领域便存在着开源与闭源两大阵营。在国内外头部大模型厂商中，OpenAI 在 GPT-3 之后就完全转向了闭源，而以 LLaMA、DeepSeek、Qwen、Kimi 等为代表的开源模型阵营，正不断逼近甚至部分超越闭源大模型的性能表现。

其中，DeepSeek 的开源模型凭借其优异的性能和极低的部署成本，迅速在全球范围内获得了广泛关注和应用，甚至对以英伟达 GPU 和闭源模型为主导的传统 AI 产业链构成了冲击。可以预见，开源与闭源将在未来的 AI 生态中持续展开博弈。

陈恺从自己多年来的开源领域经验出发，探讨了开源如何在大模型时代产生深远影响。就在昨天，他所在的上海人工智能实验室开源了“书生”科学多模态大模型 Intern-S1，并基于此打造了“书生”科学发现平台 Intern-Discovery。

在他看来，一方面，开源不仅重塑行业内不同玩家之间的分工与资源投入方式，还推动了资源的更合理配置。另一方面，尽管开源模型未必是性能最强的，但它能够有效避免重复投入，促使厂商专注于真正需要解决的问题。

更重要的是，对于行业内仍在训练基础模型并以 AGI 为终极目标的玩家来说，开源无疑形成一种实质性压力：如果闭源模型比不过开源成果，其存在价值可能就会受到质疑。因此，开源不一定总能做到最好，却能鞭策整个行业以更高效的方式持续演进。

而作为全球领先的芯片供应商，英伟达高度重视并持续支持全球 AI 生态的发展，并投入很多。特别在开源方面，英伟达为开源大模型训练与部署提供了算力引擎，通过强大的芯片、好用的工具让模型易用性更强。

Neil Trevett 表示，开源的力量毋庸置疑，如其他技术领域一样，开源是推动 AI 行业前进的强大“工具”。然而，开源是否适合每家公司，需要他们根据自身成本效益和竞争策略来判断，比如开源是否能节省成本、是否会削弱自身竞争优势等。因此，他认为，未来行业可能会走向开源与闭源结合的混合模式。

同时，开源也带来了一些新挑战，比如模型分叉、碎片化和滥用，需要行业共同探索治理方式。Neil Trevett 坚信，随着行业的发展，这些都会逐步得到解决。

至此，这场圆桌论坛画上了圆满的句号。从训练范式到架构演进，从数据焦虑到开源闭源之争，再到 Agent 落地与行业融合，这场由商汤承办的“模型之问”圆桌论坛，展现了大模型时代最真实的技术分歧，也汇聚了业界最权威的思考。

这场硬核辩论，或许正是 AI 行业走向成熟的重要一步。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

硬核“吵”了30分钟：这场大模型圆桌，把AI行业的分歧说透了

Most Discussed