阿里开源智能体WebSailor,又刷新了多项纪录

智东西
Jul 08, 2025

编辑 | 漠影

智东西AI前瞻7月8日报道,昨日,阿里巴巴通义实验室正式开源其最新网络智能体WebSailor,该智能体在多个高难度任务评测中刷新了开源系统的最好成绩,成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。

WebSailor可在开放网页环境中自主跳转页面、查找信息、整合多源线索并完成推理,适用于处理路径不明确、问题模糊、需多步判断的复杂检索任务。

7月3日,WebSailor技术报告在Hugging Face Papers当日热度榜中排名第一,成为当天关注度最高的AI论文之一。

该项目的模型代码、训练方法与评测数据集也已同步在GitHub开源。

GitHub地址:https://github.com/Alibaba-NLP/WebAgent

一、评测表现:首次在BrowseComp任务中追近闭源模型

WebSailor-72B版本在三大公开评测集上表现突出:

1、BrowseComp-en:12.0%

2、BrowseComp-zh:30.1%

3、GAIA(信息检索子集):55.4%

其中,BrowseComp是由OpenAI发布的网页智能体评测集,覆盖1266个难度极高的检索任务,考察模型在开放网页上的搜索、筛选、整合和推理能力。

在BrowseComp等评测中,WebSailor在开源智能体中实现断层领先,超过DeepSeek R1等开源方案,并首次在多个指标上逼近Grok-3、Doubao-Search等闭源方案。

值得注意的是,尽管训练聚焦高难任务,WebSailor在面向初级问答的SimpleQA子集上也展现出泛化能力。

在该任务中,WebSailor-72B取得93.5%的准确率,超过包括WebDancer、WebThinker、DeepSeek等多种方案。

WebSailor在多个维度评测中均位列开源智能体第一,进一步缩小了与OpenAI DeepResearch等闭源系统的差距。

二、打造高不确定性任务集,提升Agent复杂推理能力

WebSailor的核心突破在于其完整的后训练(post-training)方案,贯穿数据生成、冷启动调优、强化学习三大阶段:

1、高不确定性任务合成

通义团队构建了名为SailorFog-QA的问答数据集,旨在模拟高不确定性、模糊路径的信息检索任务,采用以下方式生成问题样本:

通过“随机游走”模拟网页跳转行为,在真实网页中构建复杂知识图谱;

利用“图结构采样 + 信息模糊化”处理,制造多跳、非线性、起点不明的问题,提升任务不确定性。

2、冷启动微调(RFT)

该智能体基于Qwen-2.5(3B、7B、32B、72B)系列模型进行初始化,并通过对专家路径的压缩重构,生成清晰的中间推理步骤,从而增强其在复杂任务路径中的可控性与稳定性。

3、高效强化学习算法:DUPO

WebSailor引入强化学习新算法Duplicating Sampling Policy Optimization(DUPO),采用双阶段动态采样策略:

RL前期:剔除过于简单的问题,集中训练高难度轨迹;

RL训练中:重复采样困难轨迹结果,并加入当前批次以高效迭代。

该策略在提升效果的同时,将复杂Agent的强化学习训练速度提升2–3倍。

三、产品线布局:从基准构建,到原生浏览器智能体

WebSailor是通义实验室“Web智能体”系列的第三项重要发布

WebWalker(2025年1月):主攻网页任务评测基准构建,提升评测标准化与复现性;

WebDancer(2025年5月):关注自主检索Agent策略学习,强化信息搜集与自决能力;

WebSailor(2025年7月):整合任务构建、调优与强化学习方法,首次在开源系统中实现对闭源系统的能力追近。

通义团队称,后续将继续扩展该系列,构建“基于浏览器的原生智能体框架”,适配更多开放式、跨模态的复杂推理场景。

结语:朝“开源版DeepResearch”迈进一步

从大规模任务合成到高效强化学习,从Benchmarks构建到模型开源,WebSailor正逐步进化。

虽然距离OpenAI等闭源系统仍有差距,但其在复杂任务上的大幅进展,正在为“开源Agent可用化”提供新的可能性。

如果说DeepResearch代表了闭源网络Agent的能力上限,那么WebSailor的诞生,或许意味着开源世界正开始接近那道分水岭。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10