WebShaper 是通义实验室为 AI 智能体(Agent)领域推出的全新训练数据合成系统,其核心目标是解决训练数据质量对模型上限的制约问题,并深入探索了 AI 在复杂信息检索任务中的数据理论基础。文章详细阐述了 WebShaper 的三大核心技术模块:首先,它首次提出了基于集合论的 IS(Information Seeking)任务形式化建模方法,通过“知识投影”(Knowledge Projection, KP)概念,实现了对信息检索任务结构的全域覆盖和精准控制,使得合成数据具备可控性和可解释性。其次,系统引入了创新的智能体扩展机制,特别是 Expander 智能体,能够让 AI 从简单的“种子问题”出发,通过调用搜索、摘要、验证等工具,逐步构造出复杂且逻辑清晰的多跳推理任务,从而让 AI“学会自己出题”。最后,WebShaper 采用监督微调(SFT)结合 GRPO 强化学习的组合训练策略,引导 AI 智能体在模糊和多跳信息中掌握推理与检索能力。基于 WebShaper 数据训练的模型在 GAIA 评测中取得了 60.1 分,超越了多数开源模型并接近顶尖闭源模型,证明了其在提升 AI 智能体复杂思考能力方面的显著效果。
src="https://api.eyabc.cn/api/picture/scenery/?k=e849a26b&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FkfTykfMJicWM2iaNLA24leSMTqI6oIZ6lm4dR3yuqOkeajjhzt4f42gBxmh6yvQyAwicU3U7ms6AzFKDaJ01JnXzA%2F0%3Fwx_fmt%3Djpeg">


在 AI 智能体(Agent)领域,训练数据的质量决定了模型的上限。
作为通义实验室推出的全新训练数据合成系统,WebShaper 通过三大核心技术模块 ,实现了训练数据的“可控、可解释、可扩展”,让 AI 真正“学会思考”。
WebShaper 体现了通义实验室对信息检索任务的认知从前期的启发式理解到形式化定义的深化。
形式化建模
让AI“理解任务结构”
WebShaper 首次提出了基于集合论的 IS(Information Seeking) 任务形式化建模方法。不同于传统依赖自然语言理解和预检索知识的合成方式,它引入了“知识投影”(Knowledge Projection, KP)这一核心概念。

形式化建模
每个 KP 是一个包含特定实体的集合,例如:
-
KP1:1993 年入行的女演员
-
KP2:现任丈夫是浙江湖州人的女演员
-
KP3:登上春晚的电视剧男主角
通过 KP 的 R-并集、交集、递归操作 ,WebShaper 能够构造出复杂的问题结构,并精准控制推理路径和任务复杂度。
✅ 优势
全域任务覆盖:突破预检索数据边界,实现更广泛的任务类型、能力激发和知识覆盖;
精准结构控制:可精确调控推理复杂度与逻辑结构;
结构语义对齐:信息结构与推理路径一致,减少数据合成中产生的错误;
通过这种形式化建模,WebShaper 构建出的训练数据不再是“靠猜题”,而是可控、可解释、可扩展的高质量任务,为 AI 智能体训练打下坚实基础。
智能体扩展机制
让AI自己“写题”
WebShaper 的一大创新点在于:让 AI 自己“出题” 。
不只是“理解任务结构”,还能基于这个结构,从一个简单的“种子问题”开始,逐步扩展成复杂的推理任务 ,就像 AI 自己在“写题”。
这个过程由一个核心模块完成:Expander 智能体
Expander:基于形式化建模,从一个简单的种子问题出发,调用搜索、摘要、验证等工具,一步步构造出更复杂、逻辑清晰的问题,并验证答案是否正确、过滤复杂度过高的任务。
种子问题:哪位球员出生于 90 年代?
扩展后:“哪位球员曾效力于一支成立于 1966 年的东德球队,并在 2004-05 赛季出场,且出生于 90 年代?”
工作流程

1、基于形式化建模,从种子任务开始构建,将种子问题看作多个“知识投影(KP)”的集合。
2、通过 KP 的交集、并集、递归操作,逐步构造复杂结构。(eg:KP1 ∩ KP2 ∩ KP3 = “出生于 90 年代 + 效力过东德球队 + 在 2004-05 赛季出场”的球员)
3、Expander 智能体执行:接收当前问题的形式化表示,然后根据图结构找到可以扩展的常量节点,调用搜索、摘要、验证等工具,查找相关信息,从“出生年代”开始,逐步加入“球队信息”“赛季信息”,最终构造出一个需要多跳推理的复杂问题。
4、逐层扩展策略:为避免任务冗余或推理“走捷径”,WebShaper 采用逐层扩展策略 ,每次扩展都选择“叶结点常量”进行扩展,确保推理链条清晰、任务结构可控。(eg:它不会直接跳到“2004-05赛季”,而是先扩展“东德球队”,再扩展“赛季信息”,一步步加深推理路径。)

扩展策略对比
✅ 优势
任务覆盖更广:能生成从简单到多跳、递归等多种复杂任务;
推理链条更清晰:每一步都经过验证,确保逻辑严谨;
数据质量更高:大幅减少错误传播和冗余信息干扰。
Agent训练策略
SFT+GRPO强化学习
WebShaper 的训练采用监督微调(SFT)+ GRPO 强化学习的组合策略,让 AI 智能体在模糊、多跳信息中逐步掌握推理与检索能力。
训练从 5000 条高质量训练轨迹开始,这些任务由 WebShaper 自动生成,结构清晰、逻辑严谨。SFT 阶段主要是让模型“看题、学题、理解题”,建立起对复杂任务的基本认知;GRPO 强化学习阶段,则是通过奖励机制引导模型进行多步推理,避免“走捷径”或“猜答案”。
基于 WebShaper 数据训练的模型在 GAIA 评测中取得 60.1 分 ,成为当前开源模型中的 SOTA,超越 GPT-4.1(40.7 分)、Claude Sonnet(58.2 分),仅次于闭源模型 O4 mini(66.99 分)。同时,它在普通任务(如 SimpleQA)上也表现优异,展现出良好的泛化能力。

与最新基线方法的对比
WebShaper 的出现,标志着 AI 智能体训练进入了一个新阶段。
它不只是训练数据的升级,更在于提出了一种“任务形式化 + 代理式合成”的新架构,从“猜题”到“出题”,从“搜索答案”到“构造推理路径”——WebShaper 让 AI 真正“学会思考”。
如果你想探索 AI 是如何“学会思考”的,那就去试试 WebShaper 吧!
GitHub:https://github.com/Alibaba-NLP/WebAgent
论文:https://arxiv.org/pdf/2507.15061
HuggingFace:https://huggingface.co/datasets/Alibaba-NLP/WebShaper
