通义 WebSailor 开源,首个挑战 BrowseComp 基准的开源网络智能体!

文章详细介绍了通义实验室最新开源的网络智能体 WebSailor,该智能体在复杂网络检索任务中展现出强大的推理和检索能力,并在高难度评测集 BrowseComp 上取得了开源榜单第一的成绩,甚至超越了部分闭源模型如 DeepSeek R1 和 Grok-3。WebSailor 的核心优势在于其创新的 post-training 方法,包括大规模合成高不确定性复杂任务数据 SailorFog-QA,以及高效的强化学习算法 DUPO,后者能将复杂 Agent 的强化学习训练速度提升 2-3 倍。文章还提供了 GitHub 项目、论文和模型下载链接,并指出 WebSailor 的“高难度任务合成 + 小规模冷启动 + 高效 RL 优化”通用策略具有普适性,可为未来开放领域的复杂推理问答、学术知识发现等任务提供借鉴。


src="https://api.eyabc.cn/api/picture/scenery/?k=a1941218&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2F8ZLuyaibrZbkq0Peje38ayjfePPHMa89yZ0iazzhBCwcYJVOdqIQunUNlbFqwbGq9zcC61Len4lODJhDJzqVZM3w%2F0%3Fwx_fmt%3Djpeg">

01


前言


近日,通义实验室研究团队正式开源网络智能体WebSailor,该智能体具备强大的推理和检索能力,发布后在智能体评测集BrowseComp上登顶开源网络智能体榜单。目前WebSailor的构建方案及部分数据集已在Github开源,并取得了GitHub trending 第一,Huggingface月度第三的好成绩。


通义 WebSailor 开源,首个挑战 BrowseComp 基准的开源网络智能体!

WebSailor网络智能体可以应用复杂场景下的检索任务,对于模糊问题可迅速在不同的网页中进行快速检索并推理验证,从而在海量信息中通过严密的多步推理和交叉验证中最终得出检索答案。

同时,针对该智能体的训练,研究团队采用了整套创新的post-training方法,大幅提升了该开源模型在复杂网页推理任务上的表现,在高难度智能体评测集BrowseComp上,WebSailor的成绩超越了DeepSeek R1、Grok-3等模型和智能体,一举登顶开源网络智能体榜单。


Github:

https://github.com/Alibaba-NLP/WebAgent

论文: 

https://arxiv.org/pdf/2507.02592

模型:

  • WebDancer-32B:

https://www.modelscope.cn/models/iic/WebDancer-32B

  • WebSailor-3B:

https://www.modelscope.cn/models/iic/WebSailor-3B

02


检索效果展示


中文任务检索:

英文任务检索:

03


模型构建方式



在面对高度不确定、线索模糊的复杂检索任务时,AI既需要主动在广阔的互联网中搜集信息,还需要从海量内容中过滤掉无关的噪声,再通过严密的多步推理和交叉验证,才能将所有线索串联起来。 

为此,在构建数据集阶段,研究团队大规模合成了具有高不确定性的复杂任务数据SailorFog-QA,并基于Qwen模型进行冷启动微调,让模型学到超越人类的复杂推理模式。

同时在该模型训练时,团队还提出了高效的强化学习算法 DUPO,基于双阶段动态采样策略,大幅提高了训练效率,确保即使在密集工具交互的情境中,也能快速迭代模型,DUPO 将复杂Agent的强化学习训练速度提升了约2–3倍。

04


检索性能测评



为了验证WebSailor的实验效果,研究团队在多个benchmark评测集上进行实测。


BrowseComp是Open AI开源的浏览器检索效果评测集,旨在评测大模型和智能体的检索性能,发布数月以来,该评测集包含了1266个高难度问题,是目前难度最高的评测集之一,业界尚无开源系统取得接近闭源模型的成绩。


通义 WebSailor 开源,首个挑战 BrowseComp 基准的开源网络智能体!

英文版和中文版BrowseComp评测集的实测结果显示,WebSailor跨越了开源和闭源系统之间的鸿沟,WebSailor-32B、WebSailor-72B不仅在开源模型和Agent阵营里实现了断层领先,甚至超越了DeepSeek R1、Grok-3等闭源模型,仅次于闭源的OpenAI DeepResearch。


通义 WebSailor 开源,首个挑战 BrowseComp 基准的开源网络智能体!

尽管WebSailor仅基于高难度数据训练,但在聚焦普通任务SimpleQA的数据集上,WebSailor的表现也超越了其它方法,展现出极强的兼容性和有效性,验证了WebSailor方法的泛化能力。

05


未来展望



WebSailor提供了一个通用的workflow,可借鉴到其他领域的问题中。它强调的“高难度任务合成 + 小规模冷启动 + 高效RL优化”的组合拳策略,具有很强的普适性。

未来,开源社区可以参考WebSailor的思路,去攻克更多类似“超越人类能力”的任务——比如开放领域的复杂推理问答、学术知识发现,甚至跨模态的信息整合等。

欢迎点击阅读原文,跳转GitHub为项目点Star~

AI 前线

CSS 终于原生支持瀑布流布局了!

2025-12-23 22:28:55

AI 前线

大模型的 2025:6 个关键洞察,来自 OpenAI 创始人、AI 大神“AK”

2025-12-23 22:29:09

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索