梁文锋署名新论文：给大模型配本“字典”，计算、记忆分家后智商爆表，剧透DeepSeek V4？

这是一个关于AI底层逻辑重构的时刻。

长期以来，Transformer架构被困在一个昂贵的悖论中：我们用着最先进的GPU算力，去让AI模型“死记硬背”那些查字典就能知道的静态知识。

DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》，彻底打破了这一僵局。他们提出了一种全新的Engram（印迹）模块，在传统的“条件计算”（MoE）之外，开辟了第二条稀疏化战线——“条件记忆”。

这不只是一次技术修补，而是一场关于模型“脑容量”的供给侧改革。它证明了：当我们将“记忆”从“计算”中剥离，把该背的交给“字典”，把该算的交给大脑，AI的推理能力将迎来反直觉的爆发式增长。

DeepSeek计划在2月春节前后正式发布V4，而这一刻或许就是DeepSeek V4诞生的前夜。

序章：六层神经网络的“无用功”

故事的起点，源于DeepSeek团队对Transformer内部运作机制的一次“核磁共振”扫描。

在人工智能的黑盒子里，当大模型看到“Diana, Princess of Wales”（戴安娜，威尔士王妃）这个短语时，它的内部发生了一场令人费解且极其昂贵的“内耗”。

研究人员发现，为了识别这个固定的实体，模型竟然动用了整整6层网络：

第1-2层：模型还在琢磨“Wales”大概是一个国家；
第3层：它意识到这是欧洲的一个地理概念；
第4层：它开始拼凑出“Princess of Wales”似乎是一个头衔；
第5层：它联想到了“威尔士亲王的妻子”；
第6层：直到这里，它才终于确认，这是指那位著名的“戴安娜王妃”。

在一位追求极致效率的架构师眼中，这简直是算力的暴殄天物。

“戴安娜王妃”是一个客观存在的、静态的实体，它不会因为上下文的变化而改变其本质。为了提取这个本来查字典就能知道的事实，Transformer竟然动用了整整6层深度的昂贵矩阵运算去“重建”这个概念。

这就像是一个绝世天才，在去解决微积分难题之前，每次都得先花半小时默写一遍九九乘法表。 这种“隐式记忆”的机制，迫使模型将宝贵的参数容量和网络深度，浪费在了简单的模式匹配上。

DeepSeek在这篇长达33页的论文中，提出了一个直击灵魂的拷问：为什么不直接给大模型配一本可以随查随用的“超级字典”？

第一章：架构重塑——Engram模块的暴力美学

为了解决这个问题，DeepSeek提出了一种名为“Engram（条件记忆）”的全新模块。

如果说MoE（混合专家模型）是把“大脑”分成了不同的区域，让不同的专家负责不同的思考（条件计算）；那么Engram就是给大脑外挂了一个巨大的“海马体”，专门负责存储静态知识（条件记忆）。

1. 复活“N-gram”：从古老智慧中寻找答案

Engram的核心灵感，竟然来自于NLP（自然语言处理）领域的“上古神器”——N-gram。在深度学习统治世界之前，我们就是靠统计“N个词同时出现的概率”来理解语言的。

DeepSeek将这一经典概念进行了现代化的魔改：

传统的Transformer：知识分散在神经元的权重（Weights）里，提取知识需要经过复杂的线性层计算，复杂度高。
Engram模块：它是一个巨大的、可扩展的嵌入表（Embedding Table）。当模型读到“张仲景”或者“四大发明”这种固定搭配（N-gram）时，不需要动用大脑皮层去推理，直接通过哈希索引，在内存表中“查”出对应的向量。

这一过程的时间复杂度是O(1)——这意味着无论知识库膨胀到多大（哪怕是1000亿参数），查找速度几乎不变，且极快。

2. 三大技术护城河

既然查表这么好，为什么以前没人做？因为有三个拦路虎：存储爆炸、多义词冲突、参数分配。DeepSeek给出了教科书级的解决方案：

A. 词表压缩：极致的去重

世界上的词组组合是天文数字。DeepSeek首先做了一步“无损压缩”。在分词器（Tokenizer）层面，它将语义相同但写法不同的词进行了归一化。例如，“Apple”（首字母大写）和“apple”（小写）在语义上通常指同一个东西。通过映射归并，有效词表直接缩小了23%。这不仅节省了空间，更让知识的密度大幅提升。

B. 多头哈希：解决“哈希冲突”

不可能把所有N-gram都存下来。Engram使用了“多头哈希（Multi-Head Hashing）”技术。通过多个哈希函数，将无限的N-gram映射到有限的内存槽位中。虽然会有哈希冲突（即两个不同的词被映射到了同一个位置），但通过“多头”设计，模型可以从多个候选结果中拼凑出正确的信息，极大地提高了鲁棒性。

C. 上下文门控：给记忆配个“裁判”

这是最精妙的一笔。查表是死的，语言是活的。比如“苹果”这个词。在“吃苹果”的语境下，它指水果；在“苹果发布会”的语境下，它指科技公司。直接查表可能会引入噪声。

DeepSeek设计了一个“上下文感知门控”（Context-aware Gating）。

Query（查询）：当前上下文的隐藏状态（Hidden State）。
Key/Value（键值）：查表得到的静态向量。

这个门控就像一个裁判。如果查出来的“静态知识”和当前的“上下文”不搭，裁判就会把权重压低（Gate值趋向0），让模型忽略这个噪声；如果完美契合（比如“伤寒杂病论”后跟着“张仲景”），裁判就会把大门打开（Gate值趋向1），直接把知识注入模型。

第二章：黄金比例——发现AI模型的“U型曲线”

架构设计好了，接下来的问题是：怎么分家产？

假设我们显卡里的显存是有限的，总参数预算也是固定的。我们应该把多少参数分配给MoE的“专家”（负责计算），多少参数分配给Engram的“字典”（负责记忆）？

这是一个典型的资源配置博弈。DeepSeek团队进行了一场大规模的消融实验，扫描了从0%到100%的分配比例，结果画出了一条完美的“U型Scaling Law曲线”。

这张图揭示了AI模型设计的底层规律：

左侧极端（纯Engram）：如果把参数全给字典，Loss很高。因为模型变成了“书呆子”，光有死记硬背，没有逻辑推理能力。
右侧极端（纯MoE）：如果把参数全给专家，Loss也很高。因为专家们被迫把精力都花在背书（记忆静态知识）上，没空干正事。
黄金分割点（ρ ≈ 75%-80%）：当我们将约20%-25%的稀疏参数预算分给Engram，剩下的给MoE时，模型的验证集Loss降到了最低点。

这是一个极具指导意义的发现：对于几百亿参数的大模型来说，单纯堆砌计算单元（MoE专家）已经是边际效应递减了，必须引入专门的静态记忆模块来实现“存算平衡”。

第三章：反直觉的爆发——为什么“查字典”能提高“数学成绩”？

如果Engram仅仅是让模型“记性更好”，这篇论文的分量还不足以震动社区。毕竟，RAG（检索增强生成）也能解决知识问题。

真正让业界感到震撼的，是实验结果中那些意料之外的收益。

DeepSeek构建了三个对比模型，严格控制激活参数量（3.8B）和训练数据量（262B tokens）完全一致：

Dense-4B：传统的稠密模型。
MoE-27B：纯MoE模型（72个专家）。
Engram-27B：混合模型（55个专家 + 5.7B Engram参数）。

结果令人大跌眼镜：

1. 意料之中：知识类任务霸榜

在MMLU（综合知识）上，Engram模型提升了3.4分；在CMMLU（中文知识）上，提升了4.0分。这很好理解，外挂了字典，常识自然更好了，幻觉更少了。

2. 意料之外：逻辑、代码、数学全面暴涨

按理说，“查字典”和“做数学题”没关系。但在BBH（综合推理）上，Engram-27B竟然比同参数的纯MoE基线提升了整整5.0分！

MATH（数学）：提升2.4分。
HumanEval（代码生成）：提升3.0分。
ARC-Challenge（复杂推理）：提升3.7分。

3. 深度解析：有效深度（Effective Depth）理论

为什么？一个“死记硬背”的模块，为什么能提高智商？

DeepSeek团队利用LogitLens和“CKA（中心核对齐）”技术，对模型内部进行了“解剖”。他们发现了一个惊人的现象：

还记得开头的“戴安娜王妃”吗？在纯MoE模型中，前几层网络都在忙着“拼凑概念”。而在Engram模型中，由于第2层就插入了Engram模块，静态知识的检索在极早的阶段就完成了。

这意味着，原本用于“死记硬背”的前几层网络被解放了！

这相当于给模型“虚增”了深度。 那些被释放出来的网络层和注意力头（Attention Heads），不再需要处理琐碎的局部依赖（比如识别“张仲景”是谁），从而可以全神贯注地投入到更复杂的全局推理、长程逻辑构建和代码逻辑生成中去。

Engram的本质，不是“替代”推理，而是通过“分流”杂活，让大脑专注于更高维度的思考。

第四章：工程奇迹——打破英伟达的“显存霸权”

对于华尔街的投资者和算力中心的运维者来说，这篇论文最性感的地方不在于Score，而在于Cost（成本）。

在AI时代，最昂贵的资源不是算力（FLOPs），而是显存（HBM）。英伟达H100之所以贵，很大程度上是因为那稀缺的HBM3e内存。

而Engram带来了一个颠覆性的特性：彻底的存算分离。

1. MoE的痛点：显存吞噬者

传统的MoE模型，其路由机制（Routing）是动态的。模型必须先算出当前Token的特征，算完这一层，才知道下一层该找哪个专家。这意味着，所有的专家模型必须时刻在昂贵的GPU显存里待命，随叫随到。

2. Engram的突破：确定的预知

Engram的查表逻辑是确定性的。只要输入的文本确定了（比如“A New Axis of Sparsity”），那么它对应的N-gram索引就确定了。我们根本不需要等模型算完前一层，在Token进入模型的那一瞬间，我们就知道它需要查哪张表的哪一行。

3. CPU的逆袭：把大模型塞进内存条

这一特性带来了巨大的工程红利：

卸载（Offload）：我们可以把几百亿、甚至上千亿参数的Engram词表，直接扔到便宜、量大、易扩展的“CPU内存（DRAM）”里，甚至放在NVMe SSD上。
预取（Prefetching）：在GPU拼命计算前一层Transformer的时候，CPU利用PCIe通道，异步地把下一层需要的记忆数据“预取”出来，推送到GPU。

掩盖延迟，并行处理。

DeepSeek实测数据显示：即使挂载了100B（千亿）参数的Engram表到CPU内存，相比于纯GPU推理，吞吐量的下降不到3%。

这是一个让所有因为买不到HBM而焦虑的人狂喜的结论。这意味着，未来的大模型，“记忆容量”可以低成本地无限扩张，而不必被英伟达的显存卡脖子。

第五章：长文本的胜利——NIAH测试的跃升

除了通用推理，Engram在长文本（Long Context）领域的表现同样证明了“分工”的价值。

在长文本处理中，注意力机制（Attention）的窗口是有限的。如果注意力被大量的局部信息（如固定短语）占据，它处理全局信息的能力就会下降。

Engram接管了局部依赖后，Attention机制终于可以抬头看路了。

在严格的RULER基准测试中，Engram-27B的表现令人咋舌：

Multi-Query NIAH（多重针大海捞针）：从MoE基线的84.2分，直接飙升至97.0分。
Variable Tracking（变量追踪）：从77.0分提升至89.0分。

这说明，当我们将“局部记忆”外包给Engram后，Transformer原本的注意力机制就能更高效地捕捉几万字文档中的“草蛇灰线”。

尾声：DeepSeek V4的拼图已现

把以上所有信息串联起来，我们已经隐约看到了DeepSeek下一代模型——DeepSeek V4的雏形。

华尔街见闻写道，报道称DeepSeek计划在2月（春节前后）正式发布V4。回顾DeepSeek的节奏：从2024年1月的R1，到年底击败GPT-5基准的V3.2，再到即将登场的V4，每一步都踩准了技术迭代的脉搏。

如果说R1展示了“推理”的深度，V3展示了“MoE”的效率，那么即将到来的V4，可能通过引入Engram技术，将解决记忆与计算的耦合，实现“电子脑（计算）”与“外部记忆（Engram）”的完美共生。

DeepSeek V2：引入MLA（多头潜在注意力），压缩KV Cache，解决推理显存瓶颈。
DeepSeek V3：优化“MoE（混合专家）”与无损负载均衡，解决训练稳定性与计算成本。
DeepSeek V4（推测）：引入Engram（条件记忆），解决记忆与计算的耦合，实现“电子脑（计算）”与“外部记忆（Engram）”的完美共生。

这不是一次简单的版本迭代，这是对Transformer架构底层缺陷的一次系统性手术。在DeepSeek V3已经凭借极其低廉的API价格和强大的性能席卷全球之后，V4如果集成了Engram技术，将带来更可怕的竞争力：它将拥有更大的知识库（低成本内存扩展）、更强的逻辑推理（网络深度解放）以及更低的推理成本（存算分离）。

更重要的是，报道提到V4在数据模式理解上的改进，“避免了以往模型在长时间训练下性能衰退的情况”。这与Engram将静态知识固化、减少动态网络负担的特性不谋而合——它让模型更稳定，更不容易“遗忘”或“精神错乱”。

在论文的最后，DeepSeek团队自信地写道：

“We envision conditional memory as an indispensable modeling primitive for next-generation sparse models.”（我们预想，条件记忆将成为下一代稀疏模型不可或缺的建模原语。）

春节前夕的这篇论文，不仅是DeepSeek的技术秀，更是向全行业发出的信号：单纯“卷算力”、“堆参数”的蛮荒时代结束了，架构创新的红利期才刚刚开始。而在这场定义下一代AI标准的竞赛中，中国大模型不仅没有掉队，甚至正在重新定义比赛规则。

2026，中国商业航天的“诺曼底时刻”刚刚过去；而AI领域的“存算分家”时刻，或许正是现在。

论文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

开源地址：https://github.com/deepseek-ai/Engram

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers