王夢迪團隊「自我進化agent」綜述:從靜態LLM到超級智能ASI

市場資訊
08/09

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:網易科技)

當前的大語言模型(LLM)存在嚴重的缺陷:其本質上是靜態的,無法根據新任務、不斷發展的知識領域或動態交互環境,調整內部參數。

如今,隨着 LLM 越來越多地被部署在開放、交互環境中,這種靜態缺陷愈發凸顯,迫切需要能夠實時完成適應性推理、行動和進化的 agent,即「自我進化 agent」。

日前,普林斯頓大學助理教授王夢迪團隊發佈了首個系統且全面聚焦於「自我進化 agent」的綜述研究。

論文鏈接:https://arxiv.org/abs/2507.21046

核心貢獻如下:

圖|2022-2025 年代表性自主進化 agent 框架的演進全景圖

通過提供一個結構化框架來理解和設計自我進化 agent,該綜述為在研究和實際部署中推進適應性 agentic 系統提供了路線圖,推動實現超級人工智能(ASI)。其中,agent 不僅能夠以不可預測的速度從經驗中學習與進化,還能夠在廣泛的任務中達到或超越人類的智能水平。

當前趨勢:可自我進化agent

與無法適應全新和動態交互環境的靜態 LLM 不同,自我進化 agent 被認為可以通過持續的現實世界反饋不斷學習,從而克服上述缺陷。

在該綜述中,研究團隊圍繞「進化什麼」(What)、「何時進化」(When)、「如何進化」(How)展開分析,並通過構建一個結構化框架來理解和設計自我進化 agent。

具體而言,他們系統性地研究了 agent 的各個組件,包括模型、記憶、工具及其對應的工作流,並分析了它們的進化機制(「進化什麼);隨後,他們將現有進化方法按照不同時間階段及學習範式進行分類,如監督微調、強化學習和推理時進化(何時進化」);最後,他們總結了不同進化信號(如文本反饋、標量獎勵)和 agent 的不同進化架構(如單 agent 與多 agent 進化)(如何進化」)。

1.進化什麼?

agent 的自我進化涉及多個關鍵組件,這些組件共同構成了 agent 適應與提升的基礎:

首先是模型(Model)這是 agent 的認知核心,直接決定着它們的推理、規劃和決策行為。模型通過調整內部參數、從自身經驗中學習來優化推理和決策能力,這些策略共同推動着學習範式的轉變——從被動學習轉向主動、持續且自我驅動的提升模式。

其次是上下文(Context包括記憶進化和提示優化。記憶進化關注如何存儲、遺忘和檢索信息以輔助決策,使 agent 能夠積累知識、回憶過往事件,並根據經驗調整行為;提示優化則通過調整指令的表述和結構提升模型表現,agent 可以自主改進提示策略,將提示轉化為可學習的組件,與 agent 的經驗共同進化。

再次是工具(Tool,agent 從工具使用者轉變為創造者,這種從依賴預設靜態工具集到實現自主技能擴展與優化的轉變,標誌着向認知自給自足的重要飛躍。涵蓋工具的自主發現、通過迭代優化實現精通以及高效管理與選擇,以應對複雜任務需求。

此外還包括架構(Architecture),單 agent 系統優化主要沿着兩個方向推進:優化 agent 的高層架構設計,以及使其能夠直接修改自身源代碼。通過優化節點和將組件級優化直接融入系統架構搜索過程實現性能提升;複雜多 agent 系統則聚焦協作結構的動態優化,以增強集體解決問題的能力。

2.何時進化?

agent 的進化時機分為測試內跨測試兩個階段,且在不同學習範式下有不同表現。研究團隊分別從上下文學習(In-Context Learning)、監督微調(Supervised Fine-Tuning)和強化學習(Reinforcement Learning)三個維度對兩階段進行了研究:

測試內自我進化(Intra-test-time self-evolution)發生在任務執行過程中,與當前任務緊密耦合。通過上下文學習,agent 利用動態記憶調整行為;監督微調實現即時自我修改;強化學習則在遇到難題時針對性學習新能力。

測試自我進化(Inter-test-time self-evolution)在任務完成後進行,基於歷史經驗提升未來表現。上下文學習利用過往任務反饋輔助新任務;監督微調通過自我生成數據和評估實現迭代優化;強化學習藉助大量環境交互和課程設計優化策略。

圖|基於獎勵的自我進化策略概述

3.如何進化?

圖|agent 自主進化過程中橫切式演化維度示意圖

自我完善的能力是高級智能的基石。在 LLM 的上下文中,這種機制表現為一種動態的獎勵驅動進化過程。模型通過不斷從自身輸出和交互中學習,逐步提升自身能力。作為引導反饋機制的獎勵信號設計至關重要,它直接決定了學習過程的性質、效率和效果。獎勵設計的主要方法論,按反饋類型可分為四類:文本反饋、內部獎勵、外部獎勵和隱性獎勵

更多詳情,請查看原綜述。

應用:通用領域、特定專業領域

自主進化 agent 將在多個領域和應用場景中推動技術進步,主要涉及兩大類:

本質上,通用型助手的進化側重於將學習到的經驗遷移到更廣泛的任務集,而專用型 agent 的進化則強調在特定領域內深化專業知識。

圖|進化方向可劃分為通用領域和專業領域兩大類

通用領域進化,指的是為通用應用而設計的自我進化 agent,即 agent 系統通過進化來拓展其在數字領域的多樣化任務能力,主要通過三種方式實現能力升級:記憶機制(Memory Mechanism)、課程驅動訓練(Curriculum-Driven Training)以及模型-agent 協同進化(Model-Agent Co-Evolution)。這三大機制共同作用,使智能助手能夠不斷適應複雜多變的用戶需求,提供更高效的服務響應。

專業領域進化,是指專注於提升特定任務領域的專業技能。在這些領域中,它們的進化被定製為顯著提高狹窄任務集中的性能,重點是針對編碼、GUI、金融、醫療、教育等領域的專業領域專長。其中:

編程(Coding)方面,自我進化 agent 有着變革性的應用,其自主適應與改進能力可提升軟件開發效率與質量。例如,SICA 能自主編輯代碼庫並提升基準任務性能;EvoMAC 通過優化多 agent 協作網絡改善代碼生成;AgentCoder 藉助多 agent 框架迭代優化代碼;以及通過篩選優質答案等方式讓 agent 持續進化,構建機器學習庫等。

圖形用戶界面(GUI)方面自我進化 agent 將 LLM 能力從文本推理擴展到桌面、網頁和移動界面操作,需應對複雜的動作空間等挑戰。相關研究通過像素級視覺與自我強化提升準確性;Navi agent 通過分析失敗軌跡提升任務完成率;WebVoyager 結合截圖與反思提高未知網站成功率,ReAP 增加記憶進一步改善;AutoGUI 和 MobileUse 也通過各自機制增強能力,體現了自我進化的全方面特徵。

金融(Financial)方面,為專業領域定製 agent 的瓶頸在於高效構建和整合領域知識庫,而自我進化機制可緩解這一問題。QuantAgent 通過雙層框架迭代優化響應並增強知識庫,提升交易表現;TradingAgents 整合多種動態過程優化策略。

醫療(Medical)方面,自我進化 agent 能應對臨牀複雜性,包括醫院規模模擬、多 agent 協作、醫患 agent 對話進化、強化學習輔助診療、架構搜索優化流程,以及生物醫學發現。

教育(Education)方面,自我進化 agent 在教育領域應用廣泛。在學習者層面,PACE 根據學生情況調整提示和提問,MathVC 模擬協作學習過程;在教師層面,i-vip 的多 agent 團隊實時優化輸出,EduPlanner 通過對抗循環優化教案,SEFL 生成示例微調反饋模型。這些 agent 能動態適應師生需求,提升教育體驗。

除上述五大領域,自我進化 agent 在其他專業領域也展現出一定的優勢,如學術輔助、遊戲任務、外交策略等,它們憑藉持續學習等特性在各自領域體現出廣泛適用性。

未來方向:個性化、可泛化、安全可控

部署個性化 agent是重要的研究目標,在聊天機器人、數字孿生等應用中,需要讓 AI 精準捕捉並適應用戶獨特行為模式或偏好。現有方法依賴標註數據和後訓練,但實際中面臨冷啓動問題,即初始數據有限時如何完善個性化理解、解讀用戶意圖和構建用戶畫像。同時,在個性化規劃與執行中,長期記憶管理、外部工具集成適配及個性化生成可靠性等存在挑戰,且需避免強化現有偏見。

在評估方面,需要團隊進一步突破傳統框架,開發更輕量、適應性強的指標,建立靈活動態的基準測試體系,以精準評估 agent 在自我進化過程中管理長尾個性化數據時的表現。

同時,自我進化 agent 在跨任務領域和環境的魯棒泛化上也存在挑戰,專業性與廣泛適應性的矛盾影響系統可擴展性、知識遷移和協作智能。可擴展架構設計需構建能隨複雜度和場景擴展保持性能的架構,但當前系統常面臨權衡困境,且動態推理計算成本增長限制通用化能力。

在持續學習中,災難性遺忘現象加劇挑戰,平衡效率與防止模型漂移仍是難題。知識遷移存在缺陷,需理解知識泛化傳遞條件、量化遷移侷限性、建立促進魯棒世界模型構建的機制,以提升協作效能。

此外,隨着自主 AI agent 的能力增強,部署更安全、可控的 agent成為研究的重點。當前 agent 仍難準確區分必要敏感信息與無關信息,在目標涉及不當手段時,管理行為更為困難,學習的不確定性、語義模糊情境和記憶模塊的設計缺陷均會加劇安全挑戰。

通過收集大規模、多元真實場景數據以支持安全行為學習,完善 agent 架構的規則和案例庫,探索更安全的訓練算法,調查隱私保護措施對 agent 效率的影響,纔可能實現平衡且安全的部署。

最後,agent自我進化系統面臨的挑戰,要求其必須平衡個體與集體推理。研究表明,集體討論雖能提升診斷推理,但 agent 易過度依賴共識削弱獨立推理能力。

未來,研究團隊需要繼續深入探索動態機制調整個體與集體意見權重,避免決策被少數主導,建立顯式知識庫和標準化更新機制,增強協作中個體推理貢獻。同時,現有多 agent 評估基準多為靜態,難以捕捉角色長期適應性和進化,需開發高效算法和自適應框架,使 agent 在保持自身決策優勢的同時有效協作。

研究團隊表示,自我進化 agent 的出現,標誌着 AI 領域的範式轉變,從靜態單一模型邁向具備持續學習與適應能力的動態智能系統。隨着語言 agent 在開放式交互環境中的廣泛應用,構建新一代智能系統的關鍵在於使其推理過程、工具和行為能根據新任務、知識和反饋實現進化與適應。

展望未來,充分發揮自我進化 agent 的潛力對構建超級人工智能至關重要,這需要在模型、數據、算法和評估等方面取得重大突破。解決災難性遺忘、實現自主進化中人類偏好對齊,以及 agent 與環境的協同進化等問題,是開發兼具適應性、可靠性且符合人類價值觀的 agent 的關鍵。

整理:小瑜

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10