AIR學術｜劉洋：大模型驅動的可進化智能體

11月28日，由清華大學智能產業研究院（AIR）與萬國數據聯合舉辦的慈善公益AI主題分享會暨 AIR 學術沙龍第48期順利舉行。清華大學計算機科學與技術系萬國數據教授、智能產業研究院執行院長、人工智能醫院聯席執行院長劉洋教授以《大模型驅動的可進化智能體》為題作報告，從大模型與智能體的發展態勢談起，系統介紹了團隊在可進化智能體方向的最新研究進展與人工智能醫院等實踐探索，圍繞「智能體能否像人一樣在真實環境中持續進化」等問題展開了深入分享。

講者介紹

劉洋，清華大學萬國數據教授、智能產業研究院執行院長、計算機科學與技術系副系主任、人工智能研究院副院長，國家傑出青年基金獲得者。研究方向為人工智能、自然語言處理、AI for Science，主持科技創新2030「新一代人工智能」重大項目、國家自然科學基金委國際合作項目等重要科研項目，獲得國家科技進步二等獎1項、省部級與一級學會科技獎勵5項、重要國際會議優秀論文獎4項。主要學術兼職包括中國人工智能學會組織工作委員會祕書長、中國中文信息學會計算語言學專委會主任等。曾擔任ACL亞太分會創始執委兼祕書長、Computational Linguistics編委、中國中文信息學會青年工作委員會主任。

報告內容

大語言模型近年來發展迅速，人工智能進入新的歷史發展階段。當前呈現的態勢是：大模型作為智能「靈魂」，提供內部核心能力支撐；智能體作為智能「載體」，承接外部應用場景賦能。在真實、複雜、動態的環境下，自主智能體有望像人類一樣具備可進化性，在持續交互中不斷自我提升，且其進化速度呈現出超過人類的潛力與趨勢。圍繞這一判斷，劉洋教授提出智能體進化的基本準則——人類、環境與智能體的統一對齊，並分別從單智能體的「智商」進化、單智能體的「情商」進化以及多智能體的「組織」進化三個層面，介紹團隊近期的一系列研究工作，展示了可進化智能體的技術可行性和應用前景。未來，隨着智能體群體在大規模環境中持續協作、不斷進化，我們或將迎來第二次智能湧現，推動人工智能邁向更高層級的發展。

一、大模型為「靈魂」，智能體為「載體」：AI發展的新階段

劉洋教授首先回顧了自 2022 年底 ChatGPT 問世以來大模型技術的快速演進：大模型能力迭代幾乎以「加倍」的速度在推進——過去需要二三十年才能完成的積累，現在往往在幾年甚至幾個月內就能實現。伴隨這股浪潮，人工智能正在形成兩個愈發清晰的技術態勢：大模型成為智能系統的「靈魂」，智能體成為智能落地的「載體」。

首先，大模型正逐漸成為各類智能系統的「通用大腦」，為機器人、金融、醫療等場景提供理解、推理與生成能力，其發展路徑也從早期的單模態、專用模型，快速轉向能夠同時處理文本、圖像、音頻、視頻等的多模態通用模型。

與此同時，智能體（Agent）這一概念迅速興起，成為推動智能真正落地的關鍵。智能體本質上是以大模型為內核，更像是「能工作的人」，而不僅是「回答問題的模型」。智能體具備記憶、工具使用、環境感知、規劃決策與協同合作等能力，能夠下沉到千行百業的具體場景中。單個智能體通過調用工具（如搜索引擎、計算器、專業系統等）可以顯著擴展自身邊界；多個智能體協同工作，則能完成遠超單個模型複雜度的複雜流程。

值得注意的是，這一趨勢並不僅僅源於技術堆疊。過去幾年，學界和工業界一度沉迷於「規模崇拜」：從十億、百億、千億到萬億參數，普遍認為模型越大越聰明。然而實踐發現，當參數規模超過一定閾值後，僅靠「堆參數」難以獲得質的突破。與人類文明類似，人類的腦容量幾千年來幾乎沒有顯著變化，但技術、社會與產業體系的躍遷卻從未停止。真正推動文明飛躍的，是更強大的工具能力與更復雜的組織方式。人工智能的發展也正在走向這樣的路徑：通過工具，擴展單體智能體的能力；通過組織，讓多智能體湧現協作智能。

劉洋教授還強調，在智能體方向上，國內外大致處於同一起跑線，而中國在網絡基礎設施、應用生態和數據體量方面具有明顯優勢，有機會在這一新賽道實現「從並跑到領跑」。

二、可進化智能體的核心理念：智能體-人類-環境統一對齊原則

在上述判斷基礎上，劉洋教授團隊提出了「可進化智能體」的總體構想：不再將智能體視作一次性訓練好的靜態系統，而是把它看成一個在環境中長期進化的動態個體——通過不斷交互、吸收反饋、總結經驗，實現類似達爾文進化的「適應—調整—提升」閉環。

要讓這種進化可持續且可控，團隊提出了智能體-人類-環境統一對齊原則的要求：1）與人類意圖對齊：智能體在真實環境中會不斷與人交互，必須理解人的目標與意圖，使其行為和經驗積累始終朝着人類可接受的方向發展；2）與客觀環境規律對齊：智能體要能適應並遵循任務環境中的動態變化，例如電商系統的頁面更新、實時推薦機制或醫療流程的時序約束，確保策略在真實世界中的有效性；3）與自身資源約束對齊：智能體在任務執行過程中受時間、費用、算力等約束，需要追求效率和性價比最優。

圍繞這一原則，團隊把智能體進化拆分為三個互相關聯的層面：1）單智能體的「智商」進化：單智能體能否完成設定的目標；2）單智能體的「情商」進化：單智能體能否在群體博弈中作出恰當策略選擇；3）多智能體的「組織」進化：能否形成高效團隊協作完成複雜任務。

三、「智商進化」：從錯誤與自標註中持續學習

在智商進化層面，團隊關注的問題是：如何讓智能體像人一樣「喫一塹、長一智」，在任務中不斷學習和成長。

（1）錯誤反饋驅動的經驗學習

在實際部署中，大模型的參數基本是固定的，難以像傳統機器學習那樣通過再訓練來更新知識。這意味着：當智能體遇到新問題時，即使曾在類似場景中犯過錯誤，也往往無法自動吸取教訓，容易在後續任務中重複出錯。

為打破這種「錯誤無法被記住、經驗無法沉澱」的侷限，團隊設計了基於錯誤反饋的經驗學習框架。當智能體在任務中出現明顯錯誤時，系統會回放上下文，分析「為什麼錯」；引導大模型自己總結「在什麼條件下，應該採用什麼更合適的策略」，形成經驗規則；再用當前案例和更多未見過的案例檢驗這些規則的有效性，只有通過檢驗的規則纔會寫入長期記憶的經驗庫；此後在類似場景中，智能體可以調用這些經驗，從而減少重複犯錯。

相關實驗結果表明：隨着經驗庫的不斷擴充，智能體在多類任務上的錯誤率持續下降，而且許多經驗具有跨任務可遷移性——在A任務中學到的經驗，可以在B任務中幫助其做出更好的決策。

（2）基於自主數據標註的自我訓練

智能體的策略學習高度依賴高質量的「交互軌跡」，即其在特定狀態下的觀察、推理、行動及結果所構成的因果鏈條。這類軌跡是策略更新與環境適應的關鍵數據，但傳統方法往往依賴人工構造或標註，成本高昂且難以覆蓋真實環境的複雜性，從而限制了智能體能力的持續提升。

為了解決高質量交互軌跡難以獲取的問題，團隊在ReAct算法基礎上提出ActRe框架，使智能體在執行任務的過程中自動生成可學習的數據。傳統 ReAct 雖然能在推理階段給出「思考—行動」鏈條，但其動作（Action）的合理性並未得到系統性的標註與校準，難以直接作為訓練樣本使用。ActRe 的引入，使智能體能夠在採樣新動作時由模型生成動作背後的「原因」（Reason），將「觀察—思考—動作」的過程打包成可學習的交互軌跡；再利用這些自標註軌跡進行對比學習，強調成功軌跡，弱化失敗軌跡，不斷優化策略。

在文本具身平台AlfWorld、在線購物平台WebShop上的實驗表明，在無需人工標註的前提下，智能體可以在少數幾輪迭代中從「接近普通用戶」提升到「接近甚至超過領域專家」的水平，體現了合成數據+自監督學習在可進化智能體訓練中的潛力。

由此，錯誤反饋驅動的經驗學習與基於 ActRe 的自主數據標註機制共同構成了智能體「智商進化」的核心路徑：前者使智能體能夠從失誤中提煉可泛化的策略經驗，後者賦予其在真實交互中生成可學習軌跡的能力。二者協同作用，使智能體在多任務環境中表現出持續改進與跨場景遷移的潛力，為打造可進化的自主智能體提供了關鍵技術支撐。

四、「情商進化」：在語言博弈中習得策略和互動能力

在單智能體任務之外，團隊將目光投向多主體語言博弈場景，探索智能體在複雜互動中如何積累策略與表達經驗，即所謂的「情商進化」。在德州撲克、外交遊戲、狼人殺等多輪語言博弈中，信息往往高度不完全，參與者之間既有合作也有對抗，許多關鍵決策都依賴發言、判斷與博弈策略的綜合作用，是研究這類能力的理想平台。

以狼人殺為例，幾乎所有信息都通過發言傳遞。團隊構建的系統會：從長對局記錄中自動抽取關鍵發言和關鍵局面，而不是簡單將全部對話塞進上下文；分析不同發言模式與最終勝負結果的對應關係，挖掘「在什麼局勢下、哪種發言更容易被相信或支持」；將「營造信任」「僞裝身份」「主導討論」等策略沉澱為可複用的社會經驗。

在大量對局實驗中，研究者觀察到多種湧現出的社會行為：穩定的信任鏈條、針對性的對抗關係、花式僞裝策略，以及試圖控制輿論走向的「話語領袖」等，說明智能體在長期語言互動中逐步獲得理解他人意圖、調整自身表達、建立協作或對抗策略的能力，為其向更復雜的多智能體系統邁進奠定了基礎。

五、「組織進化」：智能體精英團隊組建

如果說「智商進化」關注智能體能否勝任任務本身，「情商進化」關注其在多主體互動中的溝通和博弈能力，那麼「組織進化」關注的是：多智能體如何形成精英團隊共同完成單個智能體難以獨立承擔的複雜任務。在現實中，人類組織在面對複雜任務時往往會臨時抽調不同部門的成員組建項目組，再在實踐中不斷磨合角色分工；多智能體系統同樣需要在任務協作中演化出穩定而高效的組織機制。

由此，劉洋教授團隊提出以數據驅動的「組織進化」機制：從智能體庫中隨機抽取若干智能體組成臨時團隊，完成給定任務；根據任務結果，度量每個智能體在本次任務中的貢獻度，進行 credit assignment（信用分配）；將高貢獻成員抽出，組成新的精英團隊，並在此基礎上探索更合適的組織結構與角色分工；在不同任務重複上述過程，讓團隊結構在多次迭代中「進化」到更高效的狀態。

實驗發現，在管理學、大學數學、臨床醫療等多個領域中，這種組織進化機制能夠顯著提升整體任務表現。一個頗有趣的現象是：在不同任務上的最優組合雖然不盡相同，但「程序員」形象的智能體幾乎總會出現，體現了具備抽象建模與邏輯推理能力的角色，在多學科團隊中的關鍵價值。

六、實踐案例：人工智能醫院與可進化智能體閉環

在方法研究基礎上，劉洋教授團隊進一步將「智商進化、情商進化、組織進化」統一到一個面向醫療場景的可進化智能體平台——Agent Hospital。這一工作受到 DeepMind 強化學習（如打磚塊遊戲、AlphaGo Zero）和「斯坦福小鎮」多智能體社會實驗的啓發，但研究重點已經從遊戲和社會模擬轉向解決真實醫療問題。

團隊在虛擬空間裏構建了一座流程完整的數字醫院：患者從發病、分診、掛號、問診、檢查到康復，形成一個閉環；醫院涵蓋二十多個科室、上千種疾病，既有帶人設的 AI 患者，也有依據不同指南訓練出的多類 AI 醫生；時間在虛擬世界中被大幅加速，AI 醫生可以在「虛擬兩年」（現實一兩天）的時間裏看上萬名病人，在成功與失敗中持續積累經驗並不斷演化。

在這一框架下，前面介紹的三類進化機制實現了統一協同：智商進化：AI 醫生在每一次問診中都會積累經驗；情商進化：在會診與溝通環節中，智能體需要與其他「醫生」或「患者」進行多輪語言互動，形成策略與表達方面的經驗；組織進化：面對複雜病例時，系統會自動從不同「專業」中選出合適的 AI 醫生，快速組建會診團隊。

核心算法 Meta-Agent Zero 將成功病例中的正向經驗與失敗病例中的反思經驗分別沉澱，推動 AI 醫生在虛擬醫院中持續「工作—覆盤—進化」。實驗結果表明，隨着虛擬世界中問診數量的增加，AI 醫生的診療能力呈現明顯上升趨勢；在真實醫療數據集上的測試也顯示出與虛擬世界相似的提升曲線，說明這種「虛擬世界進化 → 現實場景遷移」的路徑是可行的。同時，基座大模型推理能力的提升也能夠直接反哺整個系統，使人工智能醫院具備良好的可持續升級能力。

在實踐層面，人工智能醫院已經形成了較為清晰的應用願景：面向患者，它支持跨院跨域診療、線上線下融合問診、健康管理與風險預測；面向醫護人員，它提供自主問診、智能分診、輔助診療、個性化模型等能力，幫助提升單個醫生的診療數量與質量，實現醫療資源的全局優化配置。

目前，該項目已進入測試階段，並在國內外多家主流科技媒體與醫學/產業媒體（如澎湃新聞網、量子位、MedTech World、China Daily 等）中受到持續關注，被廣泛認為是「智能體推動醫療場景AIGC化」的代表性探索。更多細節可參考 AIR 以往官方推送。

七、展望：邁向第二次「智能湧現」

在報告最後，劉洋教授展望了可進化智能體的未來方向。他認為：在高質量標註數據逐漸稀缺的背景下，讓智能體在複雜環境中自己獲取數據、自己標註、自己成長，將成為人工智能的重要趨勢。

同時，劉洋教授提出了關於「第二次智能湧現」的判斷。如果說第一次湧現來自大模型依託算力和數據規模實現的能力飛躍，那麼第二次湧現很可能來自大規模智能體群體及其組織形態：單一模型再強，也難以獨自承擔登月、造芯片等系統工程，而成千上萬智能體在有效組織下協同工作，或許能催生新的群體智能。

AIR長期招聘人工智能領域優秀科研人員

關於AIR

清華大學智能產業研究院（Institute for AI Industry Research, Tsinghua University，英文簡稱AIR，THU）是面向第四次工業革命的國際化、智能化、產業化的校級研究機構。AIR的使命是利用人工智能技術賦能產業升級、推動社會進步。通過大學與企業創新雙引擎，突破人工智能核心技術，培養智能產業領軍人才，推動智能產業跨越式發展。

AIR於2020年由多媒體及人工智能領域的世界級科學家、企業家張亞勤院士創建。

智慧交通（AI＋Transportation）、智慧物聯（AI＋IoT）、智慧醫療（AI＋Life Science）是清華大學智能產業研究院的三個重點研發方向。

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

AIR學術｜劉洋：大模型驅動的可進化智能體

熱議股票