一種令人興奮的全新的範式。
谷歌AI掌舵人Jeff Dean讚好了一項新研究,還是出自清華姚班校友鍾沛林團隊之手。
Nested Learning嵌套學習,給出了大語言模型災難性遺忘這一問題的最新答案!

簡單來說,Nested Learning(下稱NL)就是讓模型從扁平的計算網,變成像人腦一樣有層次、能自我調整的學習系統。
論文裏還提到,甚至人們常用的Transformer,其實本質是NL的簡化版,它只是把NL的多層級拆成了單一層級的線性層,並沒發揮出多層級的優勢。

基於NL範式的Hope模型,在語言建模任務和長上下文記憶任務中的表現均優於Transformer,且論文已經被NeurIPS 2025接收。
下面就來看看這個新範式,究竟突破在何處?
不再靠堆層、堆參數硬提升
Nested Learning的核心邏輯很明確,即複雜AI模型不是「固定架構+獨立算法」的組合,而是由多個嵌套/並行的「優化問題」構成的系統。
在大語言模型領域,一個核心痛點始終制約着技術突破,那就是模型彷彿患上了順行性遺忘症。
預訓練完成後便難以持續吸收新知識,只能依賴有限的上下文窗口或固化的歷史參數,無法像人類一樣實現知識的動態積累與迭代。
與此同時,傳統深度學習依賴的堆層擴參模式也逐漸觸及瓶頸,增加網絡層數或放大模型規模往往無法帶來預期中的能力提升,甚至可能導致訓練低效、泛化能力不足等問題。

而嵌套學習NL則開闢了一條模仿人腦認知機制的新路徑,靈感就源自於大腦的記憶工作原理。
人類大腦通過在線鞏固和離線鞏固兩個互補的過程實現持續學習,短期內記憶快速更新,長期記憶則緩慢沉澱,不同層級的記憶系統按照各自的節奏協同運作。

NL就是把這一套邏輯數字化,把機器學習模型重構為一套嵌套式的、多層級的優化體系,每個層級都擁有獨立的上下文流和更新頻率。
不同於傳統深度學習,扁平式的參數更新模式,NL中的每個組件都像是一個專屬的聯想記憶模塊,有的快速響應實時輸入數據,有的緩慢沉澱長期知識規律,通過層級化協作實現信息的高效處理與存儲。
研究團隊甚至發現,我們熟知的Transformer架構,本質上只是NL的簡化版本,它的線性層結構相當於忽略了NL多層級協同的核心優勢,並沒有充分釋放模型的潛力。

基於NL範式,研究團隊推出了三大核心創新成果。
首先是深度優化器。
像Adam、SGD這樣的傳統優化器,只會按固定的公式處理梯度,並不懂記憶和預判複雜的規律,調參容易陷入僵化。
而NL的深度優化器靠預處理機制提前分辨梯度性質、用MLP神經網絡替代線性記憶來存儲過往梯度規律,能夠預判梯度變化、靈活調參。
其次是自我修改模型。
讓模型擺脫固定更新規則的束縛,在訓練過程中自主學習「如何調整自身參數」,面對新領域數據時能靈活適配,無需人工干預修改架構。
最後是連續記憶系統。
將傳統模型的短期/長期記憶二元結構升級為多尺度記憶鏈,不同MLP模塊按不同頻率更新,分別負責存儲短期細節與長期規律,實現類似人類的分層記憶管理。
而這些創新最終凝聚為Hope模型。

經過測試,在語言建模與常識推理任務中,從760M到1.3B參數規模的Hope,表現均大幅超越Transformer、RetNet、DeltaNet等主流基線模型。
在Wiki文本困惑度、PIQA物理常識推理、Winograd指代消解等多項指標上,Hope要麼以更低的困惑度展現出更優的語言建模能力,要麼以更高的準確率證明了更強的推理水平。

嵌套學習NL的提出,本質上是對深度學習核心架構的一次範式重構。
它跳出了堆層擴參的慣性思維,轉而從認知科學中汲取靈感,讓模型從扁平的計算網絡進化為分層協作的智能系統。
這種全新的範式或許能讓AI真正擺脫靜態模型的桎梏,像人類一樣在持續學習中積累經驗、優化能力,也可能為大語言模型的終身學習、長上下文推理等關鍵難題提供全新的解決方案。
而在這樣一項研究的團隊名單裏,令人欣喜的是出現了清華姚班校友鍾沛林的名字。
天才少年的成長之路
鍾沛林,2016年畢業於清華姚班,2021年拿到哥倫比亞大學的計算機博士學位。並且從2021年起,他就加入了谷歌紐約研究院,擔任算法與優化團隊的科學家。

實際上,在進入清華姚班之前,他就已經是一位競賽達人。
據網友透露,鍾沛林的外公曾說,當時還在上中學的小鐘每到深夜某一時間鬧鐘響起,題庫開放時,就會和全球的小夥伴一起編程做題。
2012年,小鐘代表雅禮中學出征國際信息學奧林匹克競賽,並獲得當年的IOI金牌。和鍾沛林同年獲得金獎的,還有顧昱洲、李超以及同為雅禮中學學子的艾雨青。
有意思的是,鍾沛林和艾雨青兩人是發小,艾雨青還曾透露自己是在鍾沛林的影響下,走上IOI之路,兩人並肩成為了那一年雅禮中學的雙子星,保送至清華姚班。

雖然在寫NL這篇論文時,鍾沛林尚在谷歌紐約研究院就職。

左:鍾沛林 右:艾雨青
但目前,這對雙子星已前後腳入職了Meta,分別擔任AI科學家和軟件工程師。