通義實驗室最新成果WebDancer:自主智能Deep Research的新時代

市場資訊
06-12

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

作者介紹: 本文作者來自通義實驗室 RAG 團隊,致力於面向下一代 RAG 技術進行基礎研究。該團隊 WebWalker 工作近期也被 ACL 2025 main conference 錄用。

一、背景:信息檢索的新需求與挑戰

在當今信息爆炸的時代,解決複雜問題不再僅僅是簡單的知識檢索,而是需要深入的信息挖掘和多步推理。從醫學研究到科技創新,從商業決策到學術探索,每一個領域都呼喚着能夠自主思考、自主決策的智能體。Deep Research 等系統已經爲我們展示了自主多步研究的巨大潛力,但構建這樣的智能體並非易事。它們需要在複雜的網絡環境中感知、決策、行動,還要面對任務複雜度高、泛化能力弱等諸多挑戰。

但打造這樣一個 Deep Research 類智能體智能體,並不簡單!

在這種背景下,WebDancer 的出現,走出了一條復現 Deep Research 類智能體的可行路徑。

自主信息檢索智能體的構建,或者如何復現 Deep Research 類的模型一直面臨着兩大棘手難題:高質量訓練數據的稀缺與開放環境訓練的複雜性。這兩大難題如同兩座大山,阻擋了衆多研究者和開發者前進的步伐。然而,WebDancer 的出現,就像一把鋒利的寶劍,成功地劈開了這兩座大山,爲自主智能的發展開闢了一條全新的道路。

以下是一些運行的 case:

我們可以看到 WebDancer 可以完成多步的信息檢索,包含多步思考和 action 執行,在運行過程中進行完成自主的任務拆解、知識回溯和反覆驗證。

二、訓練數據難獲得:WebDancer 的創新突破

(一)數據稀缺的困境

在自主信息檢索領域,高質量的訓練數據至關重要,OpenAI 的 Deep Research 積累了大量的 browsing data。然而,現實情況是,現有的問答數據集大多淺薄且單一,往往只能解決一兩步的簡單問題。這些數據集不僅數量有限,而且難以反映真實世界中的複雜信息需求。例如,GAIA 數據集僅有 466 個樣本,WebWalkerQA 也只有 680 個樣本,遠遠不足以支持有效的訓練。此外,許多數據集只有測試集或驗證集,缺乏足夠的訓練數據,這使得智能體的訓練面臨巨大的挑戰。

(二)WebDancer 的數據合成策略

面對數據稀缺的困境,WebDancer 採取了創新的數據合成策略,成功地解決了這一難題。WebDancer 通過兩種主要方式構建了高質量的深度信息檢索問答數據集:CRAWLQA 和 E2HQA。

通過這兩種方法,WebDancer 成功地構建了海量的樣本,極大地豐富了訓練數據。這些數據不僅數量龐大,而且質量上乘,爲智能體的訓練提供了堅實的基礎。

(三)ReAct 大道至簡,模型內化 agentic 能力

獲得 QA 對之後,我們使用廣泛使用的 ReAct 框架,用閉源的 GPT-4o 和開源的 QwQ 模型進行長短思維鏈蒸餾,獲得高質量的 agentic 數據。

爲什麼使用 ReAct,是因爲這種方式足夠大道至簡,滿足我們對 Agentic Model 的需求,即只需要給其工具,就可以自主思考、執行、研究。

(四)數據過濾與質量提升

有了大量的數據,如何確保數據的質量呢?WebDancer 採用了多階段的數據過濾策略,確保了數據的高質量。具體來說,WebDancer 通過以下三個階段進行數據過濾:

通過這些嚴格的過濾策略,WebDancer 確保了訓練數據的高質量,爲智能體的高效學習提供了保障。

二、開放網絡環境難訓練:WebDancer 的高效解決方案

(一)開放環境訓練的挑戰

在開放環境中訓練智能體是一項極具挑戰性的任務。開放環境不僅動態變化,而且部分可觀測,這使得智能體的訓練變得極其複雜。例如,網絡環境中的信息不斷更新,智能體需要不斷適應新的信息和新的任務需求。此外,開放環境中的任務往往需要多步推理和複雜的決策,這對智能體的泛化能力和適應能力提出了更高的要求。

(二)WebDancer 的兩階段訓練策略

爲了應對開放環境訓練的挑戰,WebDancer 採用了兩階段訓練策略:監督微調(SFT)和強化學習(RL)。

監督微調(SFT):SFT 階段是智能體的 “冷啓動” 階段。通過在高質量軌跡數據上進行微調,智能體能夠快速適應任務需求,掌握如何在複雜的環境中進行推理和決策。SFT 階段不僅提升了智能體的初始性能,還爲後續的強化學習打下了堅實的基礎。

強化學習(RL):RL 階段是智能體性能的 “優化器”。通過與環境的交互,智能體不斷試錯,學習如何在複雜多變的環境中做出最優決策。WebDancer 採用了先進的 DAPO 算法,這種算法能夠動態採樣,充分利用未被充分利用的數據對,從而提高數據效率和策略的魯棒性。

(三)高效的數據利用與動態採樣

在開放環境中,數據的高效利用至關重要。WebDancer 通過動態採樣機制,確保了數據的高效利用。具體來說,DAPO 算法能夠動態調整採樣策略,優先採樣那些未被充分利用的數據對。這種方法不僅提高了數據的利用率,還增強了智能體的泛化能力。

(四)降低強化學習成本

強化學習階段的高計算成本和時間開銷一直是開放環境訓練的一大難題。WebDancer 通過優化算法和硬件資源的高效利用,顯著降低了強化學習的成本。具體來說,WebDancer 採用了高效的 rollout 機制和並行計算技術,將每次回滾的時間和成本降低到了最低。

三、實驗與結果:WebDancer 的卓越表現

WebDancer 的創新策略在 GAIA 和 WebWalkerQA 這兩個極具挑戰性的信息檢索基準測試中得到了充分驗證。

(一)GAIA 數據集

GAIA 數據集旨在評估通用人工智能助手在複雜信息檢索任務上的表現。WebDancer 在 GAIA 數據集上的表現尤爲突出,不僅在 Level 1、Level 2 和 Level 3 的任務中均取得了高分,還在平均分上遙遙領先。這表明 WebDancer 能夠在不同難度的任務中保持穩定的高性能,展現了其強大的泛化能力。

(二)WebWalkerQA 數據集

WebWalkerQA 數據集專注於深度網絡信息檢索。WebDancer 在 WebWalkerQA 數據集上的表現同樣出色,尤其是在中等難度和高難度任務中,其性能提升更爲明顯。這表明 WebDancer 不僅能夠處理簡單的問題,更能應對複雜的挑戰,真正實現了從簡單到複雜的跨越。

主實驗結果

我們分別用短思維鏈數據訓練了 Qwen-2.5-7B 和 Qwen-2.5-32B 模型,長思維鏈數據訓練了 QwQ 模型。實驗結果顯示,WebDancer 在這些基準測試中取得了顯著的成績,超越了 GPT-4o 等強大的基線模型。

在更具有挑戰的信息檢索任務上的性能

WebDancer 還在 BrowseComp(En.)和 BrowseComp-zh(Zh.)這兩個更具挑戰性的基準測試中進行了評估。在這些測試中,WebDancer 同樣展現出了強大的性能,進一步證明了其在處理複雜信息檢索任務方面的魯棒性和有效性。

實驗分析

我們也做了細緻的分析實驗爲後續研究者提供方向。

四、未來展望:WebDancer 的新徵程

儘管 WebDancer 已經取得了令人矚目的成就,但它的發展之路還遠未結束。未來,WebDancer 將在多個方向上繼續探索和創新。

(一)更多工具的集成

目前,WebDancer 僅集成了兩種基本的信息檢索工具,未來計劃引入更多複雜的工具,如瀏覽器建模和 Python 沙盒環境。這些工具將使智能體能夠執行更復雜的任務,如網頁瀏覽、數據抓取、API 調用等,從而拓展智能體的能力邊界,使其能夠應對更廣泛的挑戰。

(二)任務泛化與基準擴展

目前的實驗主要集中在短答案信息檢索任務上,未來 WebDancer 將擴展到開放域的長文本寫作任務。這將對智能體的推理能力和生成能力提出更高的要求,需要設計更可靠和更有效的獎勵信號。同時,WebDancer 也將參與更多基準測試,以驗證其在不同任務類型和領域中的泛化能力。

五、討論:Post-train Agentic Models

相比於一些驅動於強大的具有很強的 agentic 能力的閉源模型,例如 gpt-o4,claude 的 promtpting 工程框架,本研究的側重點在從頭訓練一個具有強大 agent 能力的模型,這對於實現 agent model 的開源以及推進我們對 agent 在開放系統中如何產生和 scale 的基本理解至關重要。我們使用的的原生 ReAct 框架秉持着簡潔性,體現了大道至簡的原則。

Agentic models 是指那些在交互式環境中,天生支持推理、決策以及多步驟工具使用的 foundation models。這些模型僅通過任務描述的提示,就能展現出諸如規劃、自我反思以及行動執行等突發性能力(emergent capabilities)。

近期的 DeepSearch 和 Deep Research 等系統,展示了強大的底層模型如何作爲智能體的核心,通過其對工具調用和迭代推理的天然支持,實現自主的網絡交互。然而,由於網絡環境本質上是動態的且部分可觀察的,強化學習在提升智能體的適應性和魯棒性方面發揮了關鍵作用。在本研究中,我們的目標是通過有針對性的後訓練(post-training),在開源模型中激發自主智能體的能力。

六、結語:WebDancer,開啓自主智能的新時代

WebDancer 的出現,不僅是信息檢索領域的一個重大突破,更是自主智能發展的一個重要里程碑。它通過系統化的訓練範式,從數據構建到算法設計,爲構建長期信息檢索智能體,開源模型復現 Deep Research 提供了清晰的指導。WebDancer 的成功,讓我們看到了自主智能體在未來科學研究、教育和生產力提升中的巨大潛力。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10