LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

机器之心报道

编辑：Panda

近段时间，关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。

本月初我们就曾梳理报道了一些，包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的“达尔文-哥德尔机（DGM）”、CMU 的“自我奖励训练（SRT）”、上海交通大学等机构提出的多模态大模型的持续自我改进框架“MM-UPT”、香港中文大学联合 vivo 等机构的自改进框架“UI-Genie”，参阅文章《LSTM 之父 22 年前构想将成真？一周内 AI“自我进化”论文集中发布，新趋势涌现？》

那之后，相关研究依然还在不断涌现，以下拼图展示了一些例子：

而前些天，OpenAI CEO、著名大 v 山姆・奥特曼在其博客《温和的奇点（The Gentle Singularity）》中更是畅想了一个 AI/智能机器人实现自我改进后的未来。他写道：“我们必须以传统的方式制造出第一批百万数量级的人形机器人，但之后它们能够操作整个供应链来制造更多机器人，而这些机器人又可以建造更多的芯片制造设施、数据中心等等。”

不久之后，就有用户 @VraserX 爆料称有 OpenAI 内部人士表示，该公司已经在内部运行能够递归式自我改进的 AI。这条推文引起了广泛的讨论 —— 有人表示这不足为奇，也有人质疑这个所谓的“OpenAI 内部人士”究竟是否真实。

https://x.com/VraserX/status/1932842095359737921

但不管怎样，AI 也确实正向实现自我进化这条路前进。

MIT 昨日发布的《Self-Adapting Language Models》就是最新的例证之一，其中提出了一种可让 LLM 更新自己的权重的方法：SEAL，即 Self-Adapting LLMs。在该框架中，LLM 可以生成自己的训练数据（自编辑 /self-editing），并根据新输入对权重进行更新。而这个自编辑可通过强化学习学习实现，使用的奖励是更新后的模型的下游性能。

这篇论文发布后引发了广泛热议。在 Hacker News 上，有用户评论说，这种自编辑方法非常巧妙，但还不能说就已经实现了能“持续自我改进的智能体”。

论文一作 Adam Zweiger 也在上给出了类似的解释：

也有人表示，这表明我们正在接近所谓的事件视界（event horizon）—— 这个概念其实也出现在了山姆・奥特曼《温和的奇点》博客的第一句话，不过奥特曼更激进一点，他的说法是“我们已经越过了事件视界”。简单来说，event horizon（事件视界）指的是一个不可逆转的临界点，一旦越过，人类将不可避免地迈入某种深刻变革的阶段，比如通向超级智能的道路。

当然，也有人对自我提升式 AI 充满了警惕和担忧。

下面就来看看这篇热门研究论文究竟得到了什么成果。

自适应语言模型（SEAL）

SEAL 框架可以让语言模型在遇到新数据时，通过生成自己的合成数据并优化参数（自编辑），进而实现自我提升。

该模型的训练目标是：可以使用模型上下文中提供的数据，通过生成 token 来直接生成这些自编辑（SE）。

自编辑生成需要通过强化学习来学习实现，其中当模型生成的自编辑在应用后可以提升模型在目标任务上的性能时，就会给予模型奖励。

因此，可以将 SEAL 理解为一个包含两个嵌套循环的算法：一个外部 RL 循环，用于优化自编辑生成；以及一个内部更新循环，它使用生成的自编辑通过梯度下降更新模型。

该方法可被视为元学习的一个实例，即研究的是如何以元学习方式生成有效的自编辑。

最后，他们还注意到，虽然本文的实现是使用单个模型来生成自编辑并从这些自编辑中学习，但也可以将这些角色分离。在这样一种“教师-学生”形式中，学生模型将使用由另一个教师模型提出的编辑进行更新。然后，教师模型将通过强化学习进行训练，以生成能够最大程度提高学生学习效果的编辑。

针对具体领域实例化 SEAL

理论有了，该团队也打造了 SEAL 的实例。具体来说，他们选择了两个领域：知识整合和少样本学习。

其中，知识整合的目标是有效地将文章中提供的信息整合到模型的权重中。下图展示了相关设置。

而下图则给出了少样本学习的设置。

对这两种实例化的更详细描述请访问原论文，下面来看看 SEAL 的实际表现。

实验结果

少样本学习

实验所用的模型是 Llama-3.2-1B-Instruct，基准为 ARC。参与对比的方法包括 ICL（上下文学习）、TTT + 自编辑（无强化学习）、Oracle TTT。结果见下表。

可以看到，与基线相比，SEAL 显著提高了适应成功率：72.5% vs. 20%（使用基础模型的自编辑但未进行强化学习训练）和 0%（无适应），但性能仍低于 Oracle TTT，表明新方法仍有进一步改进的空间。

知识整合

知识整合则使用了更大一些的 Qwen2.5-7B，目标是整合 SQuAD 文章中的新事实内容。这里对比的方法包括基础模型、仅在文章上训练的模型、在文章 + 合成数据训练的模型、在文章 + GPT-4.1 合成数据上训练的模型。结果见下表。

可以看到，在单篇文章（n = 1）和持续预训练（n = 200）这两种情况下，SEAL 方法的准确度表现都超过了基准。

首先使用基础 Qwen-2.5-7B 模型生成的合成数据训练后，模型的表现已经能获得明显提升，从 32.7% 分别提升到了 39.7% 和 41.0%，之后再进行强化学习，性能还能进一步提升（47.0% 和 43.8%）。

图 4 展现了每次外部强化学习迭代后的准确度。

可以看到，两次迭代足以使 SEAL 超越使用 GPT-4.1 数据的设置；后续迭代的收益会下降，这表明该策略快速收敛到一种将段落蒸馏为易于学习的原子事实的编辑形式（参见图 5 中的定性示例）。

在这个例子中，可以看到强化学习如何导致生成更详细的自编辑，从而带来更佳的性能。虽然在这个例子中，进展很明显，但在其他例子中，迭代之间的差异有时会更为细微。

另外，该团队也在论文中讨论了 SEAL 框架在灾难性遗忘、计算开销、上下文相关评估方面的一些局限，详见原论文。

海量资讯、精准解读，尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

Most Discussed