阿里開源智能體WebSailor,又刷新了多項紀錄

智東西
07-08

編輯 | 漠影

智東西AI前瞻7月8日報道,昨日,阿里巴巴通義實驗室正式開源其最新網絡智能體WebSailor,該智能體在多個高難度任務評測中刷新了開源系統的最好成績,成爲首個在BrowseComp等基準上逼近閉源系統能力的開源方案。

WebSailor可在開放網頁環境中自主跳轉頁面、查找信息、整合多源線索並完成推理,適用於處理路徑不明確、問題模糊、需多步判斷的複雜檢索任務。

7月3日,WebSailor技術報告在Hugging Face Papers當日熱度榜中排名第一,成爲當天關注度最高的AI論文之一。

該項目的模型代碼、訓練方法與評測數據集也已同步在GitHub開源。

GitHub地址:https://github.com/Alibaba-NLP/WebAgent

一、評測表現:首次在BrowseComp任務中追近閉源模型

WebSailor-72B版本在三大公開評測集上表現突出:

1、BrowseComp-en:12.0%

2、BrowseComp-zh:30.1%

3、GAIA(信息檢索子集):55.4%

其中,BrowseComp是由OpenAI發佈的網頁智能體評測集,覆蓋1266個難度極高的檢索任務,考察模型在開放網頁上的搜索、篩選、整合和推理能力。

在BrowseComp等評測中,WebSailor在開源智能體中實現斷層領先,超過DeepSeek R1等開源方案,並首次在多個指標上逼近Grok-3、Doubao-Search等閉源方案。

值得注意的是,儘管訓練聚焦高難任務,WebSailor在面向初級問答的SimpleQA子集上也展現出泛化能力。

在該任務中,WebSailor-72B取得93.5%的準確率,超過包括WebDancer、WebThinker、DeepSeek等多種方案。

WebSailor在多個維度評測中均位列開源智能體第一,進一步縮小了與OpenAI DeepResearch等閉源系統的差距。

二、打造高不確定性任務集,提升Agent複雜推理能力

WebSailor的核心突破在於其完整的後訓練(post-training)方案,貫穿數據生成、冷啓動調優、強化學習三大階段:

1、高不確定性任務合成

通義團隊構建了名爲SailorFog-QA的問答數據集,旨在模擬高不確定性、模糊路徑的信息檢索任務,採用以下方式生成問題樣本:

通過“隨機遊走”模擬網頁跳轉行爲,在真實網頁中構建複雜知識圖譜;

利用“圖結構採樣 + 信息模糊化”處理,製造多跳、非線性、起點不明的問題,提升任務不確定性。

2、冷啓動微調(RFT)

該智能體基於Qwen-2.5(3B、7B、32B、72B)系列模型進行初始化,並通過對專家路徑的壓縮重構,生成清晰的中間推理步驟,從而增強其在複雜任務路徑中的可控性與穩定性。

3、高效強化學習算法:DUPO

WebSailor引入強化學習新算法Duplicating Sampling Policy Optimization(DUPO),採用雙階段動態採樣策略:

RL前期:剔除過於簡單的問題,集中訓練高難度軌跡;

RL訓練中:重複採樣困難軌跡結果,並加入當前批次以高效迭代。

該策略在提升效果的同時,將複雜Agent的強化學習訓練速度提升2–3倍。

三、產品線佈局:從基準構建,到原生瀏覽器智能體

WebSailor是通義實驗室“Web智能體”系列的第三項重要發佈

WebWalker(2025年1月):主攻網頁任務評測基準構建,提升評測標準化與復現性;

WebDancer(2025年5月):關注自主檢索Agent策略學習,強化信息蒐集與自決能力;

WebSailor(2025年7月):整合任務構建、調優與強化學習方法,首次在開源系統中實現對閉源系統的能力追近。

通義團隊稱,後續將繼續擴展該系列,構建“基於瀏覽器的原生智能體框架”,適配更多開放式、跨模態的複雜推理場景。

結語:朝“開源版DeepResearch”邁進一步

從大規模任務合成到高效強化學習,從Benchmarks構建到模型開源,WebSailor正逐步進化。

雖然距離OpenAI等閉源系統仍有差距,但其在複雜任務上的大幅進展,正在爲“開源Agent可用化”提供新的可能性。

如果說DeepResearch代表了閉源網絡Agent的能力上限,那麼WebSailor的誕生,或許意味着開源世界正開始接近那道分水嶺。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10