发布日期:2026-06-26 10:49 点击次数:199

WebSailor团队 投稿
量子位 | 公众号 QbitAI
在互联网信息检索任务中,即使是很强的LLM,偶然也会堕入“信息迷雾”之中:当问题简便、旅途明确时,模子常常能诈欺缅想或一两次搜索就找到谜底;但面对高度不细目、行踪隐隐的问题,模子就很难作念对。
举个例子,咱们经常问一个直白的问题(比如“某城市的东谈主口是若干”),搜索引擎一查即可。
但要是问题被计算得相当复杂,比如“这首与南好意思某都门密切讨论的乐曲,其歌词作家在21世纪初获颁当地荣誉名称,其旋律创作家曾就读于哥伦比亚西部的一扫数名艺术学院。这首乐曲叫什么?”,东谈主类和AI都很难径直找到进口。
这类问题需要阅读很多网页、抽丝剥茧地对付行踪,从容把迷雾拨开,才能找到谜底。这超出了东谈主类有限缅想和介意力的负荷,也远远超出了普通开源模子的才调范围。
有莫得宗旨闪开源的大模子也掌捏这种水落石出的智商?
阿里巴巴通义实验室最新建议的决策WebSailor通过一整套更正的post-training方法,大幅提拔了开源模子在复杂网页推理任务上的理会。
张开剩余92%此前开源的Agent在类似BrowseComp这么复杂的、超越东谈主类才调规模的基准上险些为零,WebSailor成为首个挑战BrowseComp基准的开源汇注智能体。
BrowseComp难在哪
OpenAI于2025年4月发布BrowseComp,它的挑战在于将谜底行踪拆解得极其破碎,并散布在不同类型和时代的隐隐信息源中,造成一张巨大的“信息迷雾网”。这就条件智能体必须主动在宽广的互联网中征集信息,从海量内容中过滤掉无关的噪声,再通过严实的多步推理和交叉考证,才能将扫数行踪串联起来。
比如底下这个问题,条件智能体跟踪一个横跨大陆、波及几代东谈主的间谍汇注:
有一位间谍A,他会说多种言语,并在一篇2023年对于其步履时代的书评中被说起。他的妃耦是间谍B,B曾在不同大陆步履,并两次走漏身份:第一次是在欧洲某国,与两名好意思国东谈主一同被警方逮捕,他们的间谍汇注被破获;第二次是在亚洲,意外间向一群异邦军官走漏了身份。此外,间谍B如故另别称间谍C的上线(handler),而C的孙子在2014年写过一篇对于讨论谍报机关档案公布的著述。这两位间谍A和B还有一个孩子,自后该孩子以异见分子的身份被逮捕,在法庭上默示我方无罪,最终其服刑时辰短于原判。间谍A还曾协助别称记者为写演义提供烦躁。
领导:这名记者的国籍是什么?
有一位间谍A,他会说多种言语,并在一篇2023年对于其步履时代的书评中被说起。他的妃耦是间谍B,B曾在不同大陆步履,并两次走漏身份:第一次是在欧洲某国,与两名好意思国东谈主一同被警方逮捕,他们的间谍汇注被破获;第二次是在亚洲,意外间向一群异邦军官走漏了身份。此外,间谍B如故另别称间谍C的上线(handler),而C的孙子在2014年写过一篇对于讨论谍报机关档案公布的著述。这两位间谍A和B还有一个孩子,自后该孩子以异见分子的身份被逮捕,在法庭上默示我方无罪,最终其服刑时辰短于原判。间谍A还曾协助别称记者为写演义提供烦躁。
领导:这名记者的国籍是什么?
比拟之下,闭源系统连年来自大出惊东谈主的实力。
OpenAI的DeepResearch在极其复杂的信息检索挑战中达到了超越东谈主类的理会。
这些系统能在复杂网页任务(如BrowseComp中需要越过浩繁网站寻找荫藏信息的问题)上取得东谈主类巨匠都难以企及的收货,其要津在于“不细目性消解推理才调”。
但缺憾的是,这些闭源决策如同黑盒,其里面旨趣和磨练方法不知所以。这使筹办者和开源社区难以模仿这些见效教授,开源模子与闭源顶尖模子之间一直存在显著的才调鸿沟。
WebSailor的中枢方法
WebSailor的技巧决策涵盖从数据到磨练的全经过更正:最初,大范围合成具有高不细目性(uncertainty)的复杂任务数据(称为SailorFog-QA);
然后,借助开源reasoning model得回多轮器具调用轨迹再重构推理过程,并基于Qwen-2.5-72b-instruct和Qwen-2.5-32b-instruct进行RFT冷启动磨练;临了,引入高效的强化学习算法DUPO进一步提拔模子的决策才调。
通过这一系列设施,WebSailor 大幅度提拔了开源模子在复杂信息检索任务上的才调,在 BrowseComp-en/zh等基准上全面超越此前扫数开源决策。
SailorFog-QA:高不细目性任务的大范围生成
WebSailor 团队最初界说了information seeking任务中的三个头绪:
level-1:任务具有较低的不细目性,且易于缩小不细目性。这类任务包括模子不错通过自身常识或一次简便的汇注检索即可解答的问题。
level-2:如多跳问答(multi-hop QA),驱动不细目性较高,但有澄莹的科罚旅途。固然需要多步推理,但讨论实体之间由明确的逻辑讨论,通过有序的推理要领,不错系统性地缩小不细目性。
level-3:本筹办的要点,波及高不细目性且难以排斥的问题。此类任务中的实体之间讨论复杂、难以事先界说推理旅途。科罚这类问题需要创造性的探索和新颖的推理时势,而这些常常难以被东谈主工明确司法。
要让模子学到超越东谈主类的复杂推理模式,最初需要让模子见过满盈多高不细目性的难题。为此,WebSailor 团队构建了名为SailorFog-QA的大范围合成数据集。该数据通过图结构采样和信息隐隐化来生成,特地用于老练模子在极点不细目环境下的检索与推理才调。
随即游走建图,构造复杂常识结构:
筹办者效法随即游走(random walk)的时势,在简直网页上爬取信息并构建常识图谱。最初从维基数据等常识库中考取冷门实体行为滥觞,确保问题具有荫藏性。然后在通盘互联网中不停随即彭胀图谱,将更多讨论实体和讨论加入其中,造成一个高度非线性、繁密一语气的常识汇注。与传统多跳推理那种线性链式结构不同,这种随即图中莫得预界说的解题道路。它为模子营造了一个迷雾般的信息空间,迫使模子发展出创造性探索计策。
子图采样生成问题,隐隐细节加多不细目性:
在得到复杂常识图后,从中随即采边幅图,据此计算问答对。这些问题波及子图中的多个实体和讨论,问题与谜底常常横跨多个领域,构成了丰富各种的信息聚会。为进一步提拔难度,WebSailor对问题内容进行了刻意的“隐隐化”处理。举例,将简直年份表述成无极的时辰段(“21世纪初”),将东谈主物姓名隐去一部分(“由姓名首字母为F的东谈主创立的机构”),或用定性描摹替代精准数值(“市集占有率不到1%”)。这种信息隐隐化径直提高了驱动不细目性,使模子无法通过简便的精准匹配或查找立即得出谜底。它必须简直默契、推理和比较盛大信息后,才能抽丝剥茧找到行踪。
生成的SailorFog-QA数据具有以下隆起优点:
简直且迫临简直互联网散布:扫数问题都源自简直互联网内容,确保模子磨练所面对的挑战迫临实际网页环境。模子需要像现实中那样在海量杂沓的信息中找寻谜底,而非梦想化的合谚语料,也幸免了一谈信息来自举例Wikipedia这么的单一信息源。
各种的复杂推理模式:不同子图拓扑结构当然产出了各种万般的问题类型,涵盖多步演绎、组合推理、比较分析等复杂推理需求。这迫使模子熟识广谱的推理手段,而非局限于某单一套路。
范围可彭胀:
由于从一个图谱不错采样出多种子问题,且图谱自己可随即彭胀,SailorFog-QA 的生成高度可彭胀,概况非线性地增长产生海量的艰辛问题。这为大范围磨练提供了充足燃料。
通过上述计策,筹办团队生成了数目强大、难度空前的磨练问题。其中很多问题之复杂,即使是教授丰富的东谈主类筹办者在有限时辰内也难以解答。在里面测试中,一些题目致使需要OpenAI的o3调用多达40次器具才能找到谜底,这充分阐明了SailorFog-QA任务的驱动不细目性之高,以及要解答它们所需推理链条之长。
为了让模子学习科罚这些复杂问题,还需要相应的科罚问题的轨迹用于磨练。对此,筹办团队借助开源的LRM(如QWQ和DeepSeek R1)来尝试回应SailorFog-QA的问题,汇集它们与环境交互的轨迹,固然开源模子在这些复杂问题上正确率不高,但通过绝交采样,依然不错得回满盈的冷启动数据。但它们原生的推理输出并不符合径直进行微调,这些模子理会出高度固定且冗长的想维过程,要是效法这些模子,可能会归天受训智能体修复自身活泼探索性计策的才调。此外,在需要数十次器具调用的长周期 Web 任务中,它们冗长的想维链很快就会占满凹凸文窗口,导致性能和可读性下落。为了科罚这些问题,筹办者建议了一种新方法:使用这些开源 LRM 生成的正确Action-Observation轨迹,然后重构Thought过程。确保每一步Thought的大肆和行动导向,由此构建了一个干净、灵验的RFT数据集,不错捕捉LRM科罚问题的逻辑过程,而不会承袭它们固定的格斡旋冗长的推理。
有了高难度的问答对和对应的解题轨迹后,筹办者最初进行了RFT冷启动磨练。RFT(绝交采样微调)挑选高质料的解题轨迹对模子进行初步对王人。连年来有筹办建议在RL磨练前跳过SFT,但在如斯复杂的网页环境下,团队发现限度的RFT冷启动至关进击。因为此类任务的奖励极其稀少,要是不先教会模子基本的器具使用和想维框架,径直强化学习将濒临险些汇集不到有用教授的问题。WebSailor 仅使用了几千条高质料轨迹进行冷启动微调,就灵验地让模子掌捏了基本的ReAct式推理和器具调用习气。这为后续的强化学习阶段打下了必要的基础。
DUPO:高效的强化学习磨练框架
在完成初步微调后,WebSailor 投入强化学习阶段,以进一步提拔模子的决策计策。复杂网页任务下的Agent强化学习相当艰辛:每一次推理都波及多轮与浏览器环境的交互(搜索、阅读网页等),导致一条轨迹可能包含数十步。这种多轮器具调用使单次磨练耗时长、样本后果低。传统RL方法若不加改良,模子在这么的环境放学得会相当慢。
为此,团队建议了全新的高效强化学习算法DUPO(Duplicating Sampling Policy Optimization)。DUPO 在磨练中引入了双阶段动态采样计策,大幅提高了磨练后果,确保即使在密集器具交互的情境中,也能快速迭代模子。
DUPO的中枢想想有两点:
磨练前过滤简便样本最初,在负责RL磨练前,剔裁撤过于简便的磨练QA——举例那些模子还是不错叮咛通过的案例。这些例子对计策改良险些莫得孝顺,反而糟践磨练资源。通过事先过滤,保证磨练中模子主要面对具有挑战性的QA。
磨练中类似采样艰辛轨迹:在每个磨练批次(batch)里面,DUPO会监测各条轨迹的理会相反。具体来说,要是团结批中某些问题的解答结果存在不细目性(不同尝试间结果相反大),就以为这些问题仍有学习价值。此时,与其用无关的填充来凑满Batch,不如将这些尚未全都学会的样本复制多份,类似放入现时批次进行磨练。这么模子在一次迭代中屡次熟识这些毒手案例,特殊于对艰辛样本加大磨练力度。而对于模子已掌捏或全都无解的样本,则不糟践稀少元气心灵。这种Batch内动态复制的计策,使每个Batch都被充分诈欺。
通过以上改良,比拟于DAPO这类为batch作念填充的动态采样,DUPO 将复杂Agent的RL磨练速率提拔了约2–3倍。磨练过程中,WebSailor 还接纳了严格的奖励计算:王人集局势正确性和谜底准确性两个方面评估轨迹。模子惟有既罢职了预定的想维-行动局势(如正确使用和标签等),又最终找到正确谜底时,才能得回高分奖励。这一计算阻绝了奖励Hack步履,促使模子提拔推理链条的灵验性。
实验结果:超越DeepSeek R1, GPT-4.1, Grok-3等一系列开闭源模子
经过上述一系列磨练之后,WebSailor在多个benchmark集上理会优秀,成为现时最强的开源汇注智能体。论文在BrowseComp-en、BrowseComp-zh、XBench-DeepSearch和GAIA等挑战性基准上对WebSailor进行了评测。
概括来看,WebSailor在各项复杂网页信息任务中全面刷新了开源收货的记载。尤其是在最艰辛的BrowseComp基准上,WebSailor展示出的才调充分考证了作家的中枢假定:惟有让模子磨练中资历过那些高度不细方针难题,模子才能学会简直苍劲的通用推理和谋略计策。换言之,WebSailor通过“制造迷雾再穿越迷雾”的磨练,赋予了模子以前所缺少的非线性推理才调,超越了DeepSeek R1, GPT-4o, Grok-3等一系列开闭源模子。固然现在DeepResearch等闭源决策仍保有一定上风,但WebSailor的崛起无疑诠释了开源模子全都有契机艰苦奋斗。
对简便任务的兼容性
WebSailor仅在高难度数据上进行磨练,而BrowseComp-en/zh、GAIA以及Xbench笔据咱们的界说,都可归类为level-1或level-2的任务。为了考证WebSailor在更简便的一级任务中是否依然理会优异,咱们在SimpleQA的子集上评估了其性能。SimpleQA完竣数据集包含4326对QA对。由于在通盘数据集上测试十分耗时,咱们随即抽取了200对进行评测。该benchmark以高准确性和基于事实的简便问题为特色,这类问题对于先进的LLM来说径直解答仍具挑战性。结果如下图所示,险些扫数基于Agent的方法都优于径直作答。其中,WebSailor的理会超越了扫数其他方法,即使在简便任务上也展现出极强的兼容性和灵验性。
转头与瞻望
WebSailor的见效具有进击的行业料想。最初,它大幅削弱了开源与闭源网页智能体之间的才调鸿沟。往常,惟有顶尖闭源模子才能终了着手进的推理和信息检索才调。而WebSailor通过创造性地构造数据和磨练经过,诠释了这一差距并非不可逾越。这饱读励了开源社区:即使在复杂webagent这种高度挑战性的任务上,开源决策也有但愿自后居上。WebSailor还是开源了部分SailorFog-QA数据,并行将开源模子checkpoint,这对资源有限的团队和筹办者来说,无疑是一个令东谈主尽力的音讯。
其次,WebSailor提供了一个通用的workflow,可模仿到其他领域的问题中。它强调的“高难度任务合成 + 小范围冷启动 + 高效RL优化”的组合拳计策,具有很强的普适性。畴昔,开源社区不错参考WebSailor的想路,去攻克更多类似“超越东谈主类才调”的任务——比如绽开领域的复杂推理问答、学术常识发现,致使跨模态的信息整合等。
WebSailor的使命标明,要让AI简直迈向“超越东谈主类才调”的级别,仅靠现存的简便磨练任务远远不够,必须界说更复杂、更高不细目性的新任务,不停挑战模子的极限。下一步他们将接续探索怎么基于开源模子提拔Agent的才调上限,不仅是在信息检索领域,而是追求更平时维度上达到“超越东谈主类”的理会。这意味着畴昔咱们可能看到:更复杂的推理任务被构造出来,Agent要在愈加绽开的天下中自主探索、决策,致使去完成一些东谈主类尚不成完成的概括性任务。
GitHub:https://github.com/Alibaba-NLP/WebAgent
arXiv:https://arxiv.org/abs/2507.02592开云体育
发布于:北京市Powered by 开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口 @2013-2022 RSS地图 HTML地图