大三學生驗證了羅福莉的「暴論」,我們和他聊了聊

字母榜
04/09

2026年,「自進化」這個詞被AI行業大拿高頻提及。

小米MiMo大模型負責人羅福莉在3月的中關村論壇上直言:「如果要用一個詞來概括接下來一年裏AGI進程中最關鍵的一件事,我會選‘自進化’。」

羅福莉說,她一年前覺得大模型實現自進化需要3到5年,現在認為1到2年就能完成。

Anthropic的CEO阿莫迪比羅福莉還激進,他曾在達沃斯論壇上預測,AI的遞歸自我改進可能在6到12個月內實現,「我們可能距離AI自主構建下一代AI只有1到2年時間」。

這種自我改進一旦形成閉環,進步速度將呈指數級增長。

4月初就有這麼一篇論文,剛好講的就是如何讓AI形成這麼一個閉環,出自上海交大劉鵬飛教授團隊,論文的標題是《ASI-Evolve: AI Accelerates AI》。

研究團隊搭了一個閉環研究框架,讓agent在「學習已有經驗-提出新設計-做實驗-分析結果」之間反覆迭代,去自動改進模型架構、訓練數據篩選、強化學習算法這三個AI核心部件。

AI會先學習過去的研究經驗,再提出新方案,然後自己去做實驗、分析結果,最後繼續迭代,以此形成了閉環。

最終得出結果,AI真的能研究如何改進自己了。

誠然,這不是一篇足夠改寫整個AI產業的論文,它只是提出了一種方法。

不過真正讓人震驚的是,這篇論文的第一作者徐為先,竟然還在上大三。

一個還未畢業的本科生,主導瞭如此一項完整且具有實際意義的研究……我了個豆!我的大學真是白唸了!

於是字母AI還真就聯繫到了徐為先,通過郵件,我和這位陽光帥氣的天才少年聊了聊。

01

天才少年徐為先

徐為先的技術背景覆蓋面較廣。

他不僅在AI研究領域關注神經架構搜索和持續學習,也做過一些系統編程的項目。

他能用Rust獨立開發完整的操作系統內核ACore,用C++實現了性能媲美Clang的編譯器Imxc,甚至用Verilog設計了基於Tomasulo架構的RISC-V處理器。

這種從底層硬件到高層AI算法的貫通能力,你別說放在本科生裏了,哪怕是全棧工程師來了也夠嗆。

他的GitHub項目ASI-Arch已經獲得1100多個星標,對一位大三學生來說,這個成績是相當出衆的。

拋開這些技術,徐為先對AI研究也有自己的思考。他認為要實現「能夠自我進化的AI」(Self-Evolving AI),當前的AI還缺乏兩個能力,分別是「持續自我改進」和「長期可靠性」。

因此他的研究分為兩條戰線:改進單個模型的學習目標和記憶機制,使其能夠持續成長;構建多智能體生態系統,讓模型通過複雜的交互協議協作優化。

談到ASI-Evolve的研究起點,徐為先說那是2025年4、5月份關注到Google的AlphaEvolve時產生的一個直覺。當時那項工作讓人們看到AI不再僅僅是幫人類做簡單的檢索,而是具備了推動科學發現的潛力。

「我們當時便希望能將這種範式應用於AI研究本身。」徐為先說,「這個想法的關鍵在於:既然AI技術在飛速發展,如果能將其成果反哺到自身的科研進程中,就能讓整個領域進入一個規模宏大的自我加速循環。這種迭代式的進步,是我認為這個方向最迷人的地方。」

徐為先也承認,這個想法的實現離不開上海交大GAIR實驗室的支持。

他很感謝劉鵬飛老師,稱他非常鼓勵本科生探索和研究,提供了大量指導,實驗室豐富的資源讓他們得以完成如此龐大的探索。

其實像普通大衆對這類論文最容易產生誤解,他們會認為研究者正在試圖用AI徹底替代人類科學家,但這是完全不對的。

徐為先說:「在ASI-Evolve中,我們引入了大量的人類先驗經驗。我們並不追求脫離人類指引的‘盲目進化’,因為最初的實驗目的和核心設想始終是由人類提出的。系統的真正價值在於利用AI極強的探索能力,在人類指引的方向上進行極速迭代。它更像是一個極其高效的協作系統,而非某種冷冰冰的替代品。ASI-Evolve推動着人們從問題解決、修復向問題定義轉變。」

關於「天才」這個詞,徐為先的理解相當平實。他認為天才是熱愛、天賦與努力的結合。

「每個人都有自己潛在熱愛和擅長的事情。我們需要做的是找到熱愛與擅長的交集,從而在綜合而言更好的方向上,通過持續的努力取得成功。」

他說,「我們看到很多公認的天才,不僅是他們成就過人,也因為他們所在的領域更被大衆熟知,但‘三百六十行,行行出狀元’,只要一個人能找到感興趣的東西並為之付出,他也會成為自己熱愛領域裏的天才。」

徐為先謙虛地認為自己是相對平凡的。

他對科研充滿興趣,希望在自己喜歡的領域有所成就,但也希望能夠享受生活,希望能夠感受到身邊的美好。「儘管研究的過程中挫折佔了大多,但還是期待着Happy Research。」 徐為先說道。

徐為先最讓我感到詫異的,是作為一個研究者,他在面對學術的同時,依然保持着年輕人獨有的那份對生活的熱忱。

他是吉他手,同時玩古典和電吉他,擁有單簧管九級證書,喜歡打羽毛球和電子遊戲。

不僅如此,他在個人主頁上坦誠地提到自己正在戀愛中,珍惜與伴侶共同探索人生旅程的時光。這種技術天才與生活的平衡,讓人看到一個立體而真實的年輕研究者形象。

我相信你跟我一樣,也會對這位陽光小青年感到羨慕。

對於未來的研究方向,徐為先更期待看到AI在反思和持續學習方面取得突破。「我並不特別關注現在訓練出的每一代模型能力的提升幅度,因為現有的很多模型已經能滿足大部分的日常需求了。」

他說「我更加關心的是一個模型在整個生命周期中的表現,無論是在訓練中還是在部署使用的過程中——或者說未來可能根本就不再區分訓練和部署階段。AI到底能不能持續地提升自己,這不僅關乎到一個模型能力的上限,也是真正提升個性化能力、讓模型進一步適合每個用戶的關鍵。」

每個人有自己的表達風格和獨特需求,模型只有在真實的使用場景中持續動態進化,才能更好地適配用戶,這一點或許是純靠靜態數據集訓練難以實現的。除此之外,如何實現模型更強大的智能體能力也令人興奮。如果說持續進化是在探索智能的潛力,這個就是讓現有的模型更全面地與世界交互。

這也是徐為先本科畢業後打算繼續讀博的原因。他希望在讀博期間能做那些自己感興趣,又能真正迴歸社會、讓所有人都能實際使用的技術。

02

ASI-Evolve

徐為先認為,將研究進步從「人類受限」轉變為「計算可擴展」的過程就是ASI-Evolve框架的哲學基礎。

什麼叫人類受限?開發一個新的神經網絡架構,需要博士生花3個月嘗試100種設計。

什麼叫計算可擴展?ASI-Arch項目進行了1773次自主實驗,消耗超過20000 GPU小時,最終發現了106個創新的SOTA線性注意力架構。只要提供算力,AI就會不斷地研究。

ASI-Evolve論文的核心貢獻,在於首次在統一框架下系統性地證明了「AI加速AI」的可行性。這是在神經網絡架構設計、預訓練數據篩選、強化學習算法設計三大領域同時取得的突破。

在神經網絡架構設計方面,表現最好的模型實現了0.97%的提升,這個數字接近當前人類設計SOTA增益的3倍。

更重要的是,這些架構不是通過暴力搜索得到的,而是通過系統的「學習-設計-實驗-分析」循環自主演化而來。

系統會先學習過去的研究經驗,理解哪些設計原則是有效的,然後在此基礎上提出新的架構方案。每一輪實驗的結果都會被分析提煉,寫入經驗數據庫,為下一輪探索提供指導。

這種方式讓AI能夠像人類研究員一樣積累知識,而不是每次都從零開始。

實際上用AI研究AI,用AI改進AI,是現在非常火的一個賽道,上到Anthropic、OpenAI這樣的頭部公司,下到小團隊、實驗室,都瞄準了這個領域。

除了前面徐為先提到的AlphaEvolve,最近很火的Sakana AI實驗室也提出過一個類似的構想,叫做The AI Scientist。

它的邏輯也是讓AI自己想題目、寫代碼、跑實驗、分析、寫論文。

咱們回到徐為先的ASI-Evolve上來。

在預訓練數據篩選領域,AI自主優化的數據策略在平均基準測試中提升了3.96%,而在知識密集型的MMLU評測中,提升幅度超過了18%。

這意味着AI已經能夠理解什麼樣的數據對訓練更有價值,並自主完成數據清洗和篩選的全流程。傳統的數據篩選依賴人類專家的經驗判斷,需要大量人工標註和質量評估。ASI-Evolve則能夠通過實驗反饋自動學習數據質量的判斷標準,在海量數據中找出真正有價值的訓練樣本。

在強化學習算法設計方面,ASI-Evolve設計出的全新訓練算法在數學競賽題上的表現亮眼。在AMC32上超越GRPO基線12.5分,在AIME24上超越11.67分,在OlympiadBench上超越5.04分。

這些不是簡單的參數調優,而是具有原創性數學創新的全新算法機制。系統能夠理解現有算法的侷限性,提出新的優化目標函數,設計新的梯度更新策略。

ASI-Evolve的意義在於,它展示了AI自己研發AI的可能性。

過去,AI的每一次進步都依賴人類研究員在架構設計、數據清洗、算法調優上投入的海量人力。

我們都在說AI替代人,但這條賽道非常特殊,你如果想要AI進步更快,就只能招更多研究員。

現在,AI開始在這些核心環節中形成閉環,直接參與自身的進化。

傳統模式下,研究產出受限於人類研究員的數量和工作時間。即使是最優秀的研究團隊,一年能嘗試的數量也是有限的。

ASI-Evolve則將這個約束從人力轉移到了算力。只要有足夠的GPU資源,系統可以7×24小時不停地探索,嘗試的方案數量可以是人類團隊的數十倍甚至上百倍。

但這並不意味着人類研究員變得不重要。

徐為先強調,ASI-Evolve中引入了大量的人類先驗經驗。系統的認知庫中存儲了人類研究文獻中的設計原則和經驗教訓,這些知識為AI的探索提供了方向。

最初的研究目標和評估標準也是由人類設定的。AI的作用是在人類指引的方向上進行高效探索,而不是盲目地搜索整個可能空間。

這樣一來你就不再需要花大量時間在具體的實驗和調參上,而是可以專注于思考什麼樣的問題值得研究,什麼樣的方向更有前景。

AI則負責將這些高層次的想法轉化為具體的技術方案,通過大規模實驗找到最優解。

ASI-Evolve的另一個重要特點是它的分析器模塊。

這個模塊能夠將複雜的實驗結果提煉成可複用的洞察。

傳統的自動化實驗系統往往只能輸出原始數據,需要人類研究員花大量時間分析。ASI-Evolve的分析器則能夠自動識別實驗中的關鍵模式,總結哪些設計選擇是有效的,哪些是無效的,並將這些洞察寫入經驗數據庫。

這讓系統能夠真正地「學習」,而不只是「搜索」。

就像刷題一樣,普通人刷題,最後就會記錄一個數據,這1000道題裏我對了多少道題,錯了多少道題。但是ASI-Evolve,它不僅會記錄錯題數量,還會記得為什麼錯,下次遇到類似的題目應該怎麼才能選對。

如果我們往大了去說,過去一百年,科學研究的模式基本沒有改變。

人類提出假設,設計實驗,分析結果,發表論文。

這個循環的速度受限於人類的認知能力和工作時間。

如果ASI-Evolve的這種模式能夠推廣到更多領域,可能會從根本上改變科學研究的速度和規模。

03

天才少年爭奪戰

AI時代像徐為先這樣的天才少年越來越多,

隨之而來的,是各大廠商的招募策略正在發生根本性變化。那些頂級廠商開始提前鎖定、深度培養還在讀書的天才少年。

比如月之暗面的「穿越計劃」。

實習生在通過3到6個月的考察後,即使尚未正式畢業,也可獲得該計劃的正式offer與對應激勵。關鍵是它這個除了給獎金以外,還會給公司期權。

月之暗面去年12月的時候,估值是43億美元。到了今年3月,它的估值就來到180億美元了。這樣的成長速度下,它的期權還是相當誘人的。

該計劃幾乎沒有任何硬性條件限制,不限專業、不限學歷、不限經驗,只看你是否是「任何領域最TOP的人才」。

從公司角度看,提前一年鎖定人才,意味着在競爭對手還在觀望時就已經完成了佈局。

OpenAI的Safety Fellowship則代表了另一種模式。這個從2026年9月14日到2027年2月5日運行的項目,邀請外部研究者、工程師和實踐者專注於AI安全與對齊研究。

入選者將獲得月度津貼、計算資源支持,以及來自OpenAI導師的深度指導。項目期望參與者在結束時產出實質性的研究成果,比如論文、基準測試或數據集。

這兩種模式看似不同,實則有着共同的邏輯:給你導師、給你資源、給你算力,最後還給你錢。

一方面,它們給了年輕人一個機會。

這不是傳統意義上的「培養」,而是把最優秀的年輕人直接投入到最前沿的戰場,讓他們在真實的挑戰中快速成長。

另一方面,它也是大公司廣撒網尋找人才的新方式。

AI是一個比較新的產業,過去的量化標準對它不起效果,所以這些大公司必須地用這種新鮮手段來尋找奇才良將。

這種招聘策略的轉變,反映了AI行業發展的一個深層次變化。

隨着工具和框架的成熟,真正稀缺的不再是技術積累,而是創新思維和執行能力。一個有想法、能動手的新人,可能比一個循規蹈矩的博士更有價值。

這些品質在傳統的學術訓練中很難培養,卻是AI時代最需要的素質。

還有一點咱們也得承認,那就是這場天才少年爭奪戰背後是AI行業對未來的焦慮。

當前的AI發展速度已經超出了大多數人的預期。這才導致了培養人才的速度,跟不上推動技術的速度。

各大公司都在賭未來,人才是這場賭局中最重要的籌碼。誰能提前鎖定最優秀的年輕人,誰就能在未來的競爭中佔據優勢。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10