最近,AI圈炸出来一个大新闻,我们的国货之光华为发布了最新盘古Ultra MoE模型,但被指抄袭阿里。随后,华为盘古团队发声:“严格遵循开源许可证的要求”,但事件仍引发业界对知识产权保护的广泛讨论。
为啥这次又是阿里,原因很简单。
前几个月,斯坦福大学人工智能研究所发布了最新一期《2025年人工智能指数报告》。研究报告显示,在2024年度全球重要大模型中,中国贡献15项。从具体机构分布来看,谷歌与OpenAI各占7席并列榜首,阿里巴巴以6个入选模型紧随其后,排名第三,由此可见,阿里在大模型产品的地位不可小觑。
7月4日,阿里通义实验室又一项研究报告,首个与顶级闭源系统媲美的开源超级网络智能体“WebSailor”发布。
WebSailor的诞生源于一个重要发现:之前的开源网络智能体之所以无法与闭源系统竞争,根本原因在于它们缺乏一种关键能力——在面对极高不确定性时进行系统性推理的能力。BrowseComp-en/zh这样的超复杂基准测试就像是给智能体们出的"地狱级"难题,需要在茫茫互联网中找到极其隐蔽的答案。以往的开源模型在这类任务上几乎全军覆没,准确率接近零,而像DeepResearch这样的顶级闭源系统却能达到50%以上的成功率。
重新定义信息搜索的复杂度等级
研究团队首先建立了一个全新的任务分类体系,将信息搜索任务按照不确定性的高低和难度分为三个等级。这个分类体系就像给不同难度的游戏关卡贴上标签,帮助我们理解为什么有些任务简单,有些却困难重重。
第一级任务属于"新手模式",就像查询"谁是美国现任总统"这样的问题。这类问题的不确定性很低,要么可以直接从模型的内部知识中获得答案,要么只需要一次简单的网络搜索就能解决。这就好比在图书馆里查找一本著名小说的作者,答案显而易见且容易获得。
第二级任务相当于"进阶模式",典型代表是多跳问答任务。虽然这类问题一开始看起来很复杂,但实际上有着清晰的解决路径。比如"阿里巴巴现任CEO的母校的第一位中科院院士是谁"这样的问题,虽然需要多个步骤,但每一步都有明确的逻辑链条:先找到CEO是谁,再找到他的母校,最后查询该校的第一位院士。这就像按照菜谱做菜,虽然步骤多,但只要按部就班就能成功。
第三级任务则是真正的"地狱模式",也是WebSailor主要针对的挑战。这类任务的特点是不仅不确定性极高,而且几乎无法预先定义解决路径。比如研究团队生成的一个问题:"5世纪中期去世的某位古代基督教诗歌作者创作的赞美诗,其死亡年份恰好是某个重建几个世纪前环境条件的科学年表的最后一年。这个年表的名称是什么?"这样的问题需要在多个看似无关的信息片段之间建立复杂的联系,就像在一个巨大的拼图游戏中找到正确的组合方式。
SailorFog-QA:构建超高难度训练数据的艺术
为了让AI智能体学会处理第三级任务,研究团队开发了一套名为SailorFog-QA的数据合成方法。这个方法的核心思想是模拟现实世界中最困难的信息搜索场景,就像为奥运选手设计最严苛的训练项目。
整个过程从构建知识图谱开始。研究团队使用一种类似"随机漫步"的方法,从维基数据的稀有实体开始,通过模拟网络浏览收集各种非结构化的文本和特征信息。这个过程就像一个好奇的探险家在知识的海洋中随意游荡,每遇到一个有趣的概念就会深入挖掘,然后跳转到相关的其他概念。
关键的创新在于这种随机性。传统的数据构建方法倾向于创建线性的、有序的知识链条,但现实世界的信息往往呈现复杂的网状结构。通过概率性地选择现有节点并寻找新的实体进行连接,这种方法避免了简单的线性链条,而是培育出密集互联的知识网络,其中包含错综复杂、重叠的关系路径。
更巧妙的是信息模糊化技术。研究团队故意在问题中引入歧义和不确定性,将精确的信息转换为模糊的描述。比如,将具体的"2015年3月15日"改为"2010年代中期的某个春季",将明确的人名替换为"某位以F开头姓名的知名人士",或者用定性描述替代定量数据。这种模糊化就像在清晰的照片上蒙上一层薄雾,迫使观察者必须更加仔细地分析和推理才能得出结论。
通过这种方法,研究团队生成了大量极具挑战性的问题。有些问题甚至困难到连OpenAI最强大的o3模型都需要调用40多次工具才能找到答案,这充分说明了这些问题所蕴含的极端不确定性。
重构推理:从专家轨迹中提取精华
拥有了高质量的问题之后,下一个挑战是如何生成相应的解决方案来训练模型。这就像有了最困难的考试题目,现在需要找到最好的答题示范。
研究团队发现了一个有趣的矛盾:虽然QwQ-32B和DeepSeek-R1这样强大的开源大型推理模型能够解决一些复杂问题,但直接使用它们的完整输出进行微调反而会适得其反。这些模型具有强烈的风格化特征,它们的推理过程往往非常冗长和啰嗦。如果直接模仿这些输出,训练出的智能体反而会失去开发自己探索策略的能力,就像一个学生如果完全照搬别人的解题思路,反而会限制自己的创造性思维。
更严重的问题是上下文超载。在需要数十次工具调用的长时间网络任务中,这些模型冗长的推理链条很快就会超出任何现代大型语言模型的上下文窗口限制,导致性能下降和可读性变差。这就像试图在一张纸上写下一本书的全部内容,最终只会变成难以理解的文字堆积。
为了解决这个问题,研究团队提出了一种创新的"推理重构"方法。他们首先让专家模型生成完整的解决轨迹,包括其原生的思考过程。然后,他们选择性地丢弃这些冗长的原始思考内容,只保留成功的动作-观察序列。这个序列代表了解决路径的"是什么"和"如何做",但不包括"为什么"。
接下来是关键的重构步骤。对于动作轨迹中的每一步,研究团队都拥有到前一步的历史记录,以及专家选择的动作和随后的观察结果。然后,他们使用另一个强大的指令遵循模型来生成新的思考过程,作为采取该动作的简洁、逻辑性证明。这种方法就像请一位高明的编剧为一部精彩的电影重新撰写对白,保持原有情节的精彩,但让表达更加简洁有力。
通过这种方式,研究团队可以规模化地生成既保留复杂推理模式又避免直接模仿负面影响的监督数据。最终的推理链条既紧凑又目标导向,完全适合长期任务的需要。
突破性的训练方法:从冷启动到强化学习
WebSailor的训练采用了两阶段策略,这种方法就像培养一名优秀的运动员:先打好基础,再通过实战提高。
第一阶段是拒绝采样微调(RFT)冷启动。虽然最近一些研究建议跳过监督微调,直接进行强化学习,但研究团队发现,对于如此复杂的网络智能体任务,适度的冷启动是不可或缺的。原因在于这类任务的强化学习奖励极其稀疏,初期几乎得不到任何正面反馈。这就像让一个从未学过游泳的人直接跳进深水池,不仅危险,而且很难学会。
通过仅仅2000多个高质量样本的冷启动,模型就能获得基本的工具使用能力和长期推理框架的遵循能力。这个阶段就像教会学生基本的解题格式和思考方法,为后续的复杂学习打下坚实基础。
第二阶段是创新的DUPO(重复采样策略优化)强化学习算法。传统的智能体强化学习面临一个严重问题:由于需要与环境进行多轮交互,训练速度极其缓慢。每次生成轨迹都需要多次工具调用,这使得训练效率远低于标准的强化学习。
DUPO算法通过两个动态采样策略巧妙地解决了这个问题。在训练前,算法会过滤掉过于简单的案例(那些8次尝试全部正确的问题)。在训练过程中,不是通过填充来扩展批次,而是从同一批次中复制那些标准差不为零的样本。与DAPO的动态采样相比,这种方法实现了大约2-3倍的加速。
这种设计的巧妙之处在于它专注于那些真正具有学习价值的困难案例。就像一位明智的教练会让学生重复练习那些尚未完全掌握的技能,而不是浪费时间在已经熟练的动作上。通过这种方式,模型能够更高效地学习如何处理高不确定性的复杂任务。
突破性的实验结果:开源系统的历史性跨越
WebSailor的实验结果让整个AI研究界为之震惊。在最具挑战性的BrowseComp-en基准测试中,WebSailor-72B达到了12.0%的准确率,而此前最好的开源系统仅为3.8%。更令人惊叹的是,WebSailor-7B这样相对较小的模型竟然达到了6.7%的准确率,远超那些基于32B参数量的竞争系统。
这些数字背后代表的不仅仅是性能的提升,更是质的飞跃。在BrowseComp-zh测试中,WebSailor-72B的30.1%准确率已经与顶级专有系统DouBao的26.0%不相上下,这标志着开源技术首次在超复杂信息搜索领域达到商业系统的水平。
更重要的是,这种性能提升并非仅仅依赖于模型规模的增加。WebSailor-3B和WebSailor-7B这样的小型模型都能显著超越基于更大模型构建的竞争系统,这充分证明了先进训练方法的价值。这种现象就像一位技艺精湛的厨师能用普通食材做出比其他人用高级食材更美味的菜肴,关键在于技术和方法。
值得注意的是WebSailor在不同任务类型上的表现。虽然在GAIA基准测试上的优势相对较小,但研究团队的分析显示这是因为GAIA的很大一部分任务需要数学和计算能力,而WebSailor并未针对这些方面进行特别优化。然而,在纯信息检索任务上,WebSailor的表现依然卓越,再次确认了其专门优势。
特别令人印象深刻的是WebSailor在SimpleQA这样相对简单任务上的向下兼容性。WebSailor-72B在这个基准上达到了93.5%的准确率,超越了所有其他方法。这表明基于复杂、不确定性驱动的推理模式的训练具有出色的泛化能力,既能处理最困难的挑战,也能优雅地解决简单问题。
深度分析:为什么WebSailor能够成功
WebSailor成功的核心在于其对不确定性本质的深刻理解。传统的训练方法专注于那些具有明确解决路径的问题,就像让学生只做那些有标准答案的练习题。然而,现实世界的复杂信息搜索更像是侦探破案:线索零散,路径未明,需要在迷雾中摸索前进。
从任务复杂度分析来看,WebSailor的训练数据在工具调用次数分布上与BrowseComp-en基准极其相似,这绝非偶然。大多数传统训练集(如WebDancer)严重偏向简单任务,超过50%的轨迹只需要两次工具调用,几乎没有超过十次调用的案例。相比之下,WebSailor的训练数据呈现长尾分布,大量样本需要五次以上的工具调用,有些甚至超过二十次交互。
这种差异的重要性在于它迫使模型学习真正的多步推理和战略规划能力。就像训练一名马拉松选手,如果只练习短跑,永远无法在长距离比赛中取得好成绩。WebSailor通过在复杂任务上的深度训练,获得了处理长期、多步骤推理的能力。
强化学习阶段的效果分析也很说明问题。研究团队发现,RL训练带来的改进在极其困难的BrowseComp任务上最为显著,而在相对简单的任务上改进较小。这种差异很有启发性:BrowseComp的极端复杂性要求智能体生成异常长且复杂的轨迹,使得稳定、可重复的成功变得困难。RL训练通过强化成功策略和剪除无效策略,显著提高了模型收敛到连贯解决方案的能力。
冷启动实验的结果更是揭示了深层机制。没有RFT冷启动的直接RL训练虽然在准确率上有较大提升,但最终收敛性能明显不如经过冷启动的模型。更关键的是,直接RL模型的工具调用次数始终较低,表明它无法掌握长期推理。这说明,如果没有RFT冷启动,模型很难通过自我探索获得那些只有在强大推理模型中才能找到的复杂策略。
技术创新的深层意义
WebSailor的成功不仅仅是一个工程突破,更代表了AI系统能力边界的重要扩展。这项研究证明了一个关键观点:通过精心设计的训练方法,开源系统完全可以达到甚至超越最先进的专有系统。
从方法论角度看,WebSailor展示了合成数据在AI训练中的巨大潜力。传统观点认为真实数据总是优于合成数据,但WebSailor证明了精心设计的合成数据可能比随机收集的真实数据更有价值。关键在于合成过程必须针对特定的学习目标进行优化,而不是简单地模仿现有数据分布。
推理重构方法的成功也为未来的AI训练提供了重要启示。这种方法展示了如何在利用强大模型优势的同时避免其局限性。通过分离"做什么"和"为什么做",研究团队能够获得高质量的动作序列,同时保持推理过程的灵活性和可解释性。
DUPO算法的创新则为强化学习在复杂、多步骤任务中的应用开辟了新道路。传统的RL方法在面对长期、稀疏奖励的任务时往往效率低下,DUPO通过智能的采样策略显著提高了训练效率,这对整个强化学习领域都有重要启发意义。
对未来的影响和展望
WebSailor的成功标志着开源AI生态系统的一个重要转折点。长期以来,最前沿的AI能力似乎只能在大公司的实验室中实现,而开源社区往往落后数月甚至数年。WebSailor证明了通过创新的方法和精心的设计,开源研究完全可以追上甚至引领技术前沿。
从实际应用角度看,WebSailor的技术有望改变我们与信息互动的方式。传统的搜索引擎要求用户自己判断和整合搜索结果,而WebSailor这样的智能智能体可以代替用户执行复杂的研究任务,从多个来源综合信息,并提供完整、准确的答案。这种能力对于科研、商业分析、新闻调查等领域都有巨大价值。
然而,研究团队也诚实地指出了当前技术的局限性。首先,将训练轨迹限制在32k token以下虽然实用,但可能限制了模型处理更复杂问题的能力。其次,WebSailor有时会出现"过度思考"的倾向,即使对于看似简单的问题也会使用多步工具调用。虽然这种行为有时是在进行交叉验证,但也确实降低了效率。
技术发展的前景依然广阔。研究团队计划将同步RL框架迁移到异步训练框架,以进一步提高效率并支持更大规模的RL训练。同时,随着计算资源和模型架构的不断改进,未来的系统有望处理更长的上下文和更复杂的推理任务。
至顶AI实验室洞见
WebSailor的成功对整个开源AI社区具有深远的启示意义。它证明了创新的方法论往往比纯粹的资源投入更加重要。虽然大型科技公司在计算资源和数据方面具有优势,但开源社区可以通过更聪明的方法设计来实现技术突破。
这项研究也展示了学术研究与产业应用结合的巨大潜力。WebSailor不仅在学术基准测试中表现出色,其技术也直接适用于实际的商业应用。这种研究模式为未来的AI研究提供了有价值的参考。
WebSailor代表的不仅仅是一个技术产品,更是一种理念的胜利:通过深入理解问题本质,精心设计解决方案,开源社区完全可以在AI技术的最前沿占据一席之地。当我们看到WebSailor与顶级专有系统平起平坐时,我们看到的不仅是技术的进步,更是开放科学精神的力量。
这项研究向我们展示,超级AI能力的实现并不需要神秘的技术或巨大的资源投入,而是需要对问题的深入洞察和方法的精心设计。WebSailor的成功为整个AI研究领域树立了新的标杆,证明了通过合理的方法论,我们可以让机器在复杂的信息处理任务中真正超越人类的认知限制。
论文地址:
https://arxiv.org/pdf/2507.02592v1
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:WebSailor与传统搜索引擎有什么区别?
A:WebSailor不是传统意义上的搜索引擎,而是一个智能智能体系统。传统搜索引擎只是返回相关链接和摘要,需要用户自己判断和整合信息。而WebSailor能够像人类研究员一样,主动搜索、访问多个网页、分析信息之间的关联,并最终提供完整准确的答案。它能处理那些需要多步推理和复杂信息整合的问题。
Q2:为什么WebSailor能够超越之前的开源系统?
A:主要原因在于三个技术创新:1)创新的训练数据合成方法,专门生成高不确定性、高复杂度的问题;2)推理重构技术,既利用了强大模型的能力又避免了其局限性;3)DUPO强化学习算法,显著提高了训练效率。这些方法让WebSailor学会了处理真正困难任务的能力,而不是只能解决简单问题。
Q3:普通用户能使用WebSailor吗?目前有什么限制?
A:研究团队已经在GitHub上开源了WebSailor的完整代码(https://github.com/Alibaba-NLP/WebAgent),技术人员可以部署和使用。但目前还不是面向普通消费者的产品。主要限制包括:需要一定的技术背景来部署,处理复杂问题时可能需要较长时间,有时会出现"过度思考"导致效率不高等问题。