已达物理极限的大模型,下一步路在何方?

蓝鲸财经
25 Jul

文|数据猿

“大模型下一步怎么走, 让我们走进WAIC2025找答案。

2025世界人工智能大会(WAIC)开幕在即,数据猿作为大会权威认证的受邀媒体,将以专业视角全程直击,带来最具深度与洞察力的大会解读,洞见AI未来。

在大会进入倒计时之际,WAIC振聋发聩地提出了“AI三问”:数学之问、科学之问和模型之问。主办方以此“三问”破题,旨在超越技术应用的喧嚣,直击人工智能发展的核心。希望以此来凝聚更多的智慧,探寻AI这一影响人类文明技术的演进方向。

面对这一宏大命题,我们将聚焦“模型之问”,尝试给出我们的思考与回应。

第一问:大模型如何走向了世界中心?

大模型是怎么一步一步站在了AI舞台的中央?

(大模型发展简史)

大模型最早的技术雏形,我们可以追溯到词向量。2013年Google推出的Word2vec首次证明无监督词向量可有效捕获语义关系,通过Word2vec单词可以被转化成向量形式,词向量可以有效地捕捉单词间的语义关系。

自此,大模型命运的齿轮开始转动。

2018年成为大模型发展的第一个分水岭。Google的BERT模型与OpenAI的GPT-1相继问世,它们分别采用双向Transformer编码器架构和自回归预训练方式,不仅在小样本学习上取得突破,更确立了“预训练+微调”的技术范式,为后续大模型的繁荣奠定了坚实基础。

2020年,OpenAI发布GPT-3,以1750亿参数的惊人规模震撼业界,“规模即能力”的猜想得到了验证。这一时期,涌现能力成为了关键词。整个行业开始意识到,当模型规模达到某个临界点(大约百亿参数)后,就会出现文本生成、逻辑推理等突现能力,以及在处理特定任务能力上的非线性增长。

自此,大模型进入参数军备竞赛的发展阶段。

据统计,2020-2022年间,顶级大模型的参数量年均增长率达到惊人的650%。

2022年OpenAI,引入人类反馈强化学习(RLHF)技术,通过三阶段训练流程使模型输出更符合用户需求。这标志着大模型从纯粹的能力追求转向实用化发展阶段。

自此以后,大模型技术演进呈现多元化趋势:智能体框架通过工具调用实现多步骤自主任务执行;模型轻量化技术则让大模型得以在消费级终端运行;通过模型蒸馏,DeepSeek创造了以小博大的奇迹。

人工智能历经60多年的沉浮,大模型最终能异军突起,既是其技术路线的成功,也离不开时代的推波助澜。深度学习的厚积薄发、GPU算力的性能飞跃与互联网的数据洪流,这些力量互相碰撞和激荡,把大模型推向了风口浪尖。

第二问:参数爆炸已达物理极限 大模型下一步路在何方?

大模型一路向前的同时,模型参数在一路狂飙。

我们以GPT系列模型为参照物,看看模型参数令人咋舌的膨胀速度:

·2018年发布的GPT-1,参数为1.17亿级;

·2019年发布的GPT-2,参数为10亿级;

·2020年发布的GPT-3,参数暴涨至1750亿;

·2023年发布的GPT-4模型参数预估5000亿-一万亿之间。

短短五年间,模型参数几乎翻了一万倍。然而ChatGPT-4似乎成为了一道分水岭,后续发布的新一代顶尖模型如Claude 3.5 Sonnet和Llama 3等,其参数规模反而有所下降。业界开始意识到,模型的效率和智能并非仅由参数量决定。

尤其是Deepseek的横空出世,狠狠的击碎了“模型越大,AI越智能”的迷思,对更大参数规模的盲目追求正在退潮。

百度CEO李彦宏认为,千亿参数是通用大模型的门槛,“过了千亿之后,不是万亿量级参数一定比千亿效果要好。”

当前主流大模型产品几乎都是构建在Transformer架构之上,这是一个划时代的创新。然而,它也存在一些结构性缺陷,最核心的就是O(n²) 的自注意力复杂度的问题。可以说,这个机制催生了一系列改变世界的大模型产品,但是也为后续的发展埋下了隐患。

为什么这样说,这得从O(n²) 的自注意力复杂度的原理说起。

我们设想一个场景,在一间教室,一群刚开学的小朋友,如果其中一个小朋友A想要认识另外一个小朋友B,这个A必须和教室里的每个人单独握手并交谈一次,才能找到小朋友B。那么问题来了,当这间教室有100个小朋友的时候,如果所有的小朋友都互相认识,总共需要握手多少次?答案是4950次——这就是Transformer处理长文本时算力爆炸的根源。

很多人意识到,想要进一步提升模型处理的效能,需要根本性创新而非渐进式改进。

☆架构革命:从Transformer到混合智能系统

很多人尝试对Transformer架构进行优化升级,比如MoE架构(混合专家模型),架构的核心思想是将庞大模型拆分为多个“专家”子网络,并通过智能路由机制动态激活少量相关专家处理每个输入。它将大模型无差别暴力解题的方式,优化为专人专岗,分组分类的形式,极大的优化了效率。

MoE架构受到很多顶尖大模型公司的青睐,其中最典型的就是DeepSeek。此外,Google的Gemini 2.0也采用了这种架构。

很多企业也开始尝试在Transformer架构之外,寻找新的方案。2024年,一种名为Mamba的新型架构作为挑战者问世。它在保持与Transformer相当的建模能力的同时,对于序列长度具有近线性的可扩展性。Mamba架构通过状态空间模型将计算复杂度从O(n²)降至O(n),使长文本处理效率提升10倍。

然而Mamba架构也存在一定的技术局限性,比如上下文学习能力和上下文的信息复制能力等。

那有没有可能将两者进行优势互补呢?

Transformer-Mamba混合架构是一种将Transformer模型的全局注意力机制与Mamba模型(基于状态空间模型SSM)的高效长序列处理能力相结合的新型神经网络架构。它能够有效克服两者的局限性,同时保留各自优势。

2025年,腾讯推出了国内首个相关产品。腾讯混元 T1采用了Hybrid-Mamba-Transformer融合架构。这一架构在不牺牲准确性的基础上,有效降低了计算复杂度,吐字速度最快可达80token/s。

计算机视觉领域,英伟达团队研发的MambaVision,利用Mamba与Transformer的融合设计,使MambaVision在Top - 1精度和图像吞吐量上超越同类模型。

☆训练范式升级:从预训练到后训练

除了架构的创新以外,业界也尝试从模型的训练方法着手,寻找大模型发展的新方向。

我们知道,预训练是大模型最具标志性的技术特色之一。预训练的优势在于,它能够在海量无标注的数据中学习通用特征,为下游泛化的任务奠定基础。但同时也带来了数据污染、知识幻觉等问题。

人类对模型行为的调控、对齐能力成为大模型提升的关键,“后训练”的模式由此登上了舞台。

后训练指在模型预训练完成后的优化阶段,通过量化、蒸馏、剪枝等技术直接优化已训练模型。其主要功能在于能够有效修正在预训练阶段的知识错误和事实偏差,使模型的输出更符合人类价值观,避免其“信口开河”。同时,通过后训练还能强化模型的多步骤推理能力,更好的助力大模型在具体应用场景的落地。

预训练目前主要有两种发展路径:一是通过在大量的“推理轨迹”上进行后训练,直接教会模型如何思考;二是利用“搜索”技术,在推理时指导模型的思考过程,让模型生成多个候选答案或推理路径,再由奖励模型来挑选出最佳结果。

包括Claude 4、GPT-4o 、Gemini2.5,以及马斯克的xAI最新发布的Grok 4,都加大了后训练的投入。

Gartner预测到2027年,70%的企业AI系统将采用"预训练-微调-后训练优化"三级流水线。全新的架构和训练范式的变革,这些探索将为下一代基础大模型的构建提供方向。

第三问:高质量数据枯竭 大模型如何解渴?

大模型数据饥渴的问题已经迫在眉睫。

狂奔的大模型几乎吞噬了所有的公开数据,传统依赖数据驱动模型能力增长的路径已难以为继。

千禧年互联网刚诞生时的时候,人们乐观的认为,互联网会让世界变成地球村。所有的信息汇聚到一大片海洋中,供来自世界各地的轮船自由停泊。然而现实并没有像预想的一样,这片想象中的大海被分割成无数个大大小小的水坑。更重要的是,那些真正有质量的“矿藏”稀少且难以获取。

据资料显示,Deepmind每年单是在数据标注上的花费就高达10亿美元。对于高质量的数据,OpenAI愿意为单条推理轨迹支付2000至3000美元。

大模型企业在数据上的“花费”有开始超过计算投入的趋势。

虽然围绕数据端,我们做了很多工作,比如数据治理、可信数据空间、打造高质量数据集等等,但是始终无法从根源上解决大模型的“数据焦虑”。

为此,业界提出了一个名叫SICOG的框架。SICOG的核心在于其“后训练增强—推理优化—再预训练强化”三位一体的协同机制。

首先,在后训练增强阶段,通过少量高质量的标注数据,提升模型的系统性认知与基础推理能力;随后,在大规模无标签数据上进行自主推理,并通过自我一致性投票机制生成伪标签,为再预训练构建基础;最后,将生成的伪标签数据反馈到模型中,实现模型能力的持续进化。

这个技术路线最终走向如何,还有待观察,它至少让我们看到了数据问题的解题之道,正在从被动走向主动。

第四问:人类的焦虑 大模型是敌人还是伙伴?

经济学家熊彼特提出过一个著名的观点——破坏性创新。当前,大模型“破坏性创新”的威力,正在各行各业快速扩散。大模型带来的这场变革迅猛而剧烈,必然伴随着一些产业的毁灭与重塑。

360董事长周鸿祎公开宣布要干掉整个市场部,挑战一个人+AI办一场发布会。招商银行"小招"智能助手已替代45%的客服岗位。美国影视行业有多家公司反应,目前有20%特效镜头由AI生成,使得每集电视剧的制作成本大幅降低。加上具身智能、人形机器人开始走向工厂,AI正在无差别实现对蓝领工作和白领工作的双重替代。

企业层面,AI正在蚕食产业链条中的某些环节。比如,很多企业过去需要外包的工作,如视频制作、业务咨询、软件开发等,在AI的协助下,不断回归到企业内部。这也就意味着提供这些服务的公司将面临客户流失的风险。

任何不愿经历文化和组织变革阵痛的公司,都将面临被淘汰的风险。

☆极简团队时代到来

AI给人类带来了焦虑,焦虑背后我们观察到AI也在帮助人类创造奇迹。

一些善用AI的极简团队正在创造惊人的财富效应。Midjourney用两年时间、约40名员工的团队,创造了约2亿美元的营收;而更年轻的Cursor仅用一年时间、约20名员工,就实现了约1亿美元的营收。事实上,带来产业震撼的Deepseek,其团队规模也只有一两百人。

这些奇迹的背后共同指向一个事实:AI极大提升了个人和团队能力的杠杆,尤其是随着智能体的发展,AI正从一个只能执行瞬时指令的工具,演变为能够处理复杂、长期任务的可靠助手,创造着前所未有的变革之力。

这种变革之力直接体现在团队结构上,那些小而美、小而精的团队只要找到合适的赛道,就能快速启动,利用AI的能力杠杆,创造奇迹。

(团队50人以下,营收500万美元以上的“极简公司”)

如果说蒸汽机、电动机、内燃机等技术革命,是对人类肌肉力量的延伸。那么大模型的发展无疑是对人类思维能力的一次突破。尽管看起来是人类在规划和设计AI,但AI不同于汽车、冰箱或者任何产品。这是人类第一次与一个在智力上比肩自己的“物种”打交道。在与人和环境的不断互动中,大模型已经从数据的“处理工具”,进化成人类可靠的合作伙伴。

虽然大模型的发展仍面临很多困难,但是纵观过去的历史,在技术难题前面,总会涌现创新的能量。大模型是一个没有使用说明,没有指导手册的全新领域,我们注定要在巨大的不确定中突围。在这些不确定中,唯一能确定的是,2025年我们将接近AI的真相更近一步。WAIC2025或许会给大家带来更多答案。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10