Jeff Dean盛讚姚班校友AI新研究,目前人已到Meta

量子位
11/15

一種令人興奮的全新的範式。

谷歌AI掌舵人Jeff Dean讚好了一項新研究,還是出自清華姚班校友鍾沛林團隊之手。

Nested Learning嵌套學習,給出了大語言模型災難性遺忘這一問題的最新答案!

簡單來說,Nested Learning(下稱NL)就是讓模型從扁平的計算網,變成像人腦一樣有層次、能自我調整的學習系統。

論文裏還提到,甚至人們常用的Transformer,其實本質是NL的簡化版,它只是把NL的多層級拆成了單一層級的線性層,並沒發揮出多層級的優勢。

基於NL範式的Hope模型,在語言建模任務和長上下文記憶任務中的表現均優於Transformer,且論文已經被NeurIPS 2025接收。

下面就來看看這個新範式,究竟突破在何處?

不再靠堆層、堆參數硬提升

Nested Learning的核心邏輯很明確,即複雜AI模型不是「固定架構+獨立算法」的組合,而是由多個嵌套/並行的「優化問題」構成的系統

在大語言模型領域,一個核心痛點始終制約着技術突破,那就是模型彷彿患上了順行性遺忘症。

預訓練完成後便難以持續吸收新知識,只能依賴有限的上下文窗口或固化的歷史參數,無法像人類一樣實現知識的動態積累與迭代。

與此同時,傳統深度學習依賴的堆層擴參模式也逐漸觸及瓶頸,增加網絡層數或放大模型規模往往無法帶來預期中的能力提升,甚至可能導致訓練低效、泛化能力不足等問題。

而嵌套學習NL則開闢了一條模仿人腦認知機制的新路徑,靈感就源自於大腦的記憶工作原理。

人類大腦通過在線鞏固離線鞏固兩個互補的過程實現持續學習,短期內記憶快速更新,長期記憶則緩慢沉澱,不同層級的記憶系統按照各自的節奏協同運作。

NL就是把這一套邏輯數字化,把機器學習模型重構為一套嵌套式的、多層級的優化體系,每個層級都擁有獨立的上下文流和更新頻率。

不同於傳統深度學習,扁平式的參數更新模式,NL中的每個組件都像是一個專屬的聯想記憶模塊,有的快速響應實時輸入數據,有的緩慢沉澱長期知識規律,通過層級化協作實現信息的高效處理與存儲。

研究團隊甚至發現,我們熟知的Transformer架構,本質上只是NL的簡化版本,它的線性層結構相當於忽略了NL多層級協同的核心優勢,並沒有充分釋放模型的潛力。

基於NL範式,研究團隊推出了三大核心創新成果。

首先是深度優化器

像Adam、SGD這樣的傳統優化器,只會按固定的公式處理梯度,並不懂記憶和預判複雜的規律,調參容易陷入僵化。

而NL的深度優化器靠預處理機制提前分辨梯度性質、用MLP神經網絡替代線性記憶來存儲過往梯度規律,能夠預判梯度變化、靈活調參。

其次是自我修改模型

讓模型擺脫固定更新規則的束縛,在訓練過程中自主學習「如何調整自身參數」,面對新領域數據時能靈活適配,無需人工干預修改架構。

最後是連續記憶系統

將傳統模型的短期/長期記憶二元結構升級為多尺度記憶鏈,不同MLP模塊按不同頻率更新,分別負責存儲短期細節與長期規律,實現類似人類的分層記憶管理。

而這些創新最終凝聚為Hope模型

經過測試,在語言建模與常識推理任務中,從760M到1.3B參數規模的Hope,表現均大幅超越Transformer、RetNet、DeltaNet等主流基線模型。

在Wiki文本困惑度、PIQA物理常識推理、Winograd指代消解等多項指標上,Hope要麼以更低的困惑度展現出更優的語言建模能力,要麼以更高的準確率證明了更強的推理水平。

嵌套學習NL的提出,本質上是對深度學習核心架構的一次範式重構。

它跳出了堆層擴參的慣性思維,轉而從認知科學中汲取靈感,讓模型從扁平的計算網絡進化為分層協作的智能系統。

這種全新的範式或許能讓AI真正擺脫靜態模型的桎梏,像人類一樣在持續學習中積累經驗、優化能力,也可能為大語言模型的終身學習、長上下文推理等關鍵難題提供全新的解決方案。

而在這樣一項研究的團隊名單裏,令人欣喜的是出現了清華姚班校友鍾沛林的名字。

天才少年的成長之路

鍾沛林,2016年畢業於清華姚班,2021年拿到哥倫比亞大學的計算機博士學位。並且從2021年起,他就加入了谷歌紐約研究院,擔任算法與優化團隊的科學家。

實際上,在進入清華姚班之前,他就已經是一位競賽達人。

據網友透露,鍾沛林的外公曾說,當時還在上中學的小鐘每到深夜某一時間鬧鐘響起,題庫開放時,就會和全球的小夥伴一起編程做題。

2012年,小鐘代表雅禮中學出征國際信息學奧林匹克競賽,並獲得當年的IOI金牌。和鍾沛林同年獲得金獎的,還有顧昱洲、李超以及同為雅禮中學學子的艾雨青。

有意思的是,鍾沛林和艾雨青兩人是發小,艾雨青還曾透露自己是在鍾沛林的影響下,走上IOI之路,兩人並肩成為了那一年雅禮中學的雙子星,保送至清華姚班。

雖然在寫NL這篇論文時,鍾沛林尚在谷歌紐約研究院就職。

左:鍾沛林 右:艾雨青

但目前,這對雙子星已前後腳入職了Meta,分別擔任AI科學家和軟件工程師。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10