炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:科技行者)
这项由斯坦福大学、加州大学伯克利分校、德克萨斯大学奥斯汀分校、加州大学洛杉矶分校、纽约大学、哈佛大学等数十家顶尖机构联合完成的研究,以预印本形式于2026年6月23日公开发布,论文编号为arXiv:2606.24855。感兴趣的读者可以通过这个编号在arXiv平台上查阅完整原文。
你有没有注意到,最近几年AI开始能帮人写代码、修Bug、甚至自己操作电脑了?这类"会干活"的AI,学术上叫做"智能体模型"(Agentic Model)。和只会聊天的AI不同,它们能在电脑里一步一步地完成复杂任务,就像一个远程的、不知疲倦的程序员助手。
然而,训练这样一个AI助手,最关键、也最神秘的部分——用什么数据去"教"它——几乎是整个行业的黑盒子。就连DeepSeek这样的顶级机构,发布了超过50页的技术报告,也只用了两段话含糊地提了一下数据的事。这让学术界和开源社区非常头疼:大家不知道怎么做,也没法互相学习。
正是为了打破这个黑盒,来自全球数十所顶尖大学和机构的研究人员联合发起了OpenThoughts-Agent(简称OT-Agent)项目。他们的目标不是藏着掖着,而是把训练智能体模型的"食谱"彻底公开出来——包括数据集、数据处理流程、实验过程和训练好的模型,全部开源。
这项研究的核心成果是:他们做了超过100个严格对照实验,系统地摸清了训练数据的每一个关键环节究竟影响有多大,然后用这套方法训练出了一个名为OpenThinkerAgent-32B的模型,在七个不同的智能体任务测评中,平均得分44.8%,比之前最强的开源智能体模型Nemotron-Terminal-32B高出了3.9个百分点。
一、为什么"喂什么"比"怎么喂"更重要
要理解这个研究,得先明白智能体模型是怎么被训练出来的。它本质上是一种"有监督微调"——你给AI看大量的例子,每个例子都是"某个任务"配上"从头到尾完成这个任务的操作记录"。AI看得多了,自然就学会了怎么做。
研究团队把这个训练数据的制作过程拆成了六个步骤,像一条流水线:第一步是收集或生成任务题目,第二步是把多个来源的题目混合在一起,第三步是对题目做各种加工或强化,第四步是筛掉质量差的题目,第五步是选一个合适的AI模型来示范"怎么做",第六步是过滤掉质量差的示范操作记录,最后才得到可以用来训练的数据集。
这六个步骤中,研究团队惊奇地发现:最开始"从哪里找题目"这个环节,对最终效果的影响是最大的。不同题目来源之间,模型在SWE-Bench(一个著名的代码修复测试)上的表现差距可以高达30个百分点,在Terminal-Bench(一个测试AI操作终端能力的测试)上差距也有10个百分点。换个比喻来说,就像两个厨师技术相当,但一个用了新鲜食材,另一个用了过期食材,做出来的菜天差地别。
研究团队一共测试了95种不同的题目来源策略,涵盖了合成生成的GitHub代码问题、人工撰写的Linux操作问题、编程竞赛题目、各类技术问答平台的内容等等。结果发现,排名靠前的来源主要分两类:一类是以"修复代码Bug"为核心的任务,比如SWE-Smith和IssueTasks;另一类是人类真实写下的电脑操作问题,比如StackExchange上关于Linux服务器管理和Tezos区块链的帖子。这两类题目分别在代码修复测试和终端操作测试上各有所长,也揭示了一个重要规律:特定类型的训练数据,擅长提升特定类型的能力。
二、混合搭配比单一来源更聪明
找到了好的题目来源,下一个问题是:该用哪几种来源,各占多少比例?
研究团队的做法很直接:按排名把最好的1个、2个、4个……直到32个来源都试了一遍,每次都从每个来源里平均取同等数量的题目,拼成1万条数据来训练模型。结果非常清晰:混合排名靠前的4到8个来源效果最好,比只用排名第一的来源要强。
这背后的逻辑很好理解:只用代码修复类题目,模型在代码测试上表现不错,但在终端操作测试上就掉链子;只用操作问题,情况反过来。而混合搭配,就能让模型在两方面都不拉垮,泛化能力更强。不过来源数量也不是越多越好,扩展到16个甚至32个来源后,效果反而开始下降,说明低质量来源的噪音开始拖后腿了。
三、对题目做"二次加工"几乎没用
既然有了一批好题目,很多人会想:能不能用AI把题目改造一下,让它更难、更多样、更清晰,从而提升训练效果?
研究团队测试了多种"题目增强"方案,包括让AI自动给题目加约束条件、把题目改得更难、把多个来源的题目混合改写,以及给题目附上"提示线索"等。结论非常干脆:所有这些增强方案,和啥也不改的原始题目相比,在统计上没有任何可靠的提升,差异基本在误差范围内。
这是一个反直觉但重要的发现:AI自动改写题目,并不能代替高质量的原始题目来源。与其花精力"装饰"题目,不如把更多资源用在寻找优质的原始来源上。
四、用AI帮忙筛题,效果比随机好了3个百分点
虽然改写题目没用,但从一堆题目里挑出好的题目,还是有意义的。
研究团队测试了几种筛选方法:随机抽取、用嵌入向量度量多样性来筛、用另一个AI打分来筛,以及让GPT-5来解这批题目,看它需要多少字才能解完——需要更多字的题目,往往更有挑战性,也更有训练价值。
结果显示,"让GPT-5解题,选那些GPT-5需要写更长回答才能解决的题目"这个方法,比随机抽取平均高出了约3个百分点。可以把这理解为:你在备考时挑选练习题,应该优先选那些让你需要认真思考才能解出来的中难题,而不是一堆你闭着眼睛就能做对的简单题。
五、"老师"不是越强越好——这可能是整个研究最反直觉的发现
在有了一批好题目之后,接下来需要找一个AI模型来"示范"怎么做这些题目——这个示范的AI叫做"教师模型"。直觉上,教师模型越强,教出来的学生不是应该越好吗?
研究团队选了几个当时能用的顶尖模型来当老师,包括当时SWE-Bench表现最强的GPT-5.3-Codex,以及GLM-4.7-AWQ(一个量化的GLM模型)、Kimi K2.5、GLM 5等。结果让所有人大跌眼镜:GPT-5.3-Codex虽然是这几个里能力最强的,但它当老师的效果是最差的,在Terminal-Bench上比GLM-4.7-AWQ当老师的效果低了整整5个百分点。而最终效果最好的老师,是GLM-4.7-AWQ,一个性能反而相对弱一些的量化模型。
为什么会这样?研究团队的分析指向了一个关键:老师示范的操作步骤的长度和多样性。GLM-4.7-AWQ生成的操作记录更长、包含更多的探索步骤,这对学生模型的学习更有价值。顶尖的GPT-5.3-Codex可能太聪明了,直接给出了最短路径的答案,而学生模型需要的恰恰是更多的"思考过程"示范。这就像一个老手程序员解题时可以一步到位,但给初学者看的教学过程应该包含更多探索和纠错的环节,才更有帮助。
六、过滤掉"太短"的操作记录,模型变得更聪明
收集到的AI示范操作记录(学术上叫"轨迹")并非质量一致。研究团队测试了几种过滤方式:去掉超时的记录、去掉"子智能体"产生的记录,以及过滤掉步骤数少于5步的"短轨迹"。
结果清楚表明,过滤掉步骤少于5步的轨迹效果最好,在所有三个测试基准上都胜过了其他过滤方式。更重要的是,研究团队专门做了一个"公平对比"实验:把"只用5步以上轨迹"和"随机抽取同等数量的Token(也就是同等训练计算量)的轨迹"做对比,前者依然明显更好,说明不是因为训练了更多的字,而是因为步骤更多的轨迹质量本身就更高。多步骤的操作记录包含了更丰富的探索、调试和修正过程,这些正是AI最需要学习的"解题思路",而不只是最终答案。
七、数据规模扩大时,怎么让效果持续提升
在确定了最佳的数据制作策略后,研究团队开始考虑:怎么把数据集从1万条扩展到10万条,同时保持效果持续提升?
最简单的方法是"每道题多做几遍示范",也就是对同一批题目生成更多轨迹。研究发现,这个方法在3.16万条之前有效,但从3.16万条扩展到10万条时,效果基本停滞了——SWE-Bench只涨了3个百分点,Terminal-Bench甚至微降了2个百分点,两个变化都在误差范围内。这说明问题不是示范次数不够,而是题目本身的多样性遇到了瓶颈。
研究团队的另一条思路是"合成新题目"——针对现有题目数量最少的来源(Tezos只有997道题),用AI把这些题目改写成不同的表述方式,从约902种不同的题目扩展到了超过2.1万种。注意,这里并不是"改造题目让它更难"(之前试过没用),而是保持题目本质不变,只改变表述方式,增加题目的表面多样性。同时,他们用GPT-5-nano来给题目打一个"难度分",按难度比例分配每道题被训练到的次数,而不是简单地硬性丢掉一部分题目。
这个方法效果显著:从3.16万条扩展到10万条时,效果在所有三个测试上都持续提升,SWE-Bench提升了7.7个百分点,Terminal-Bench提升了5个百分点。最终10万条数据训练出的32B模型,在Terminal-Bench 2.0上达到26.2%,在SWE-Bench Verified上达到54.0%,相比同类开源模型遥遥领先。
八、强化学习:让AI在"做中学",而不只是"看中学"
除了上面说的"监督微调"(看例子学),研究团队还研究了"强化学习"(RL)——让AI自己去做任务,做对了给奖励,做错了不给奖励,让它在反复尝试中自我改进。
在强化学习阶段,研究团队同样发现了"用什么数据训练"这个问题的重要性。他们测试了8种不同的训练数据来源,包括把编程竞赛题目改造成Python函数测试的pymethods2test、真实代码Bug修复数据集inferredbugs、自然语言转Bash命令的nl2bash等。这8种来源之间,最终测试效果相差了7.6个百分点,远超正常的运行误差。
效果最好的是pymethods2test——一个把Codeforces、CodeChef等竞赛平台的题目重新包装成Python函数测试的数据集。这类题目的特点是:难度适中(不会太简单也不会太难)、格式统一、有自动判分的单元测试。研究团队分析认为,正是这种"中等难度"让模型处于最有利的学习区间:太简单的题AI一蒙而过学不到东西,太难的题AI根本做不出来也学不到东西,难度适中才能让模型在尝试中真正提升。
更有趣的是,研究团队通过详细的行为分析发现,在pymethods2test这个数据上做强化学习后,AI的行为发生了明显变化:它开始"思考"更多(思考文字量翻了一倍多),调用更多工具,自我纠错更频繁,整体解题步骤也变长了。这说明RL真的让AI学会了更深入探索问题,而不是找到了什么作弊捷径。
相比之下,另一个数据集llm-verifier-freelancer训练后,AI反而变得更"简洁"了:步骤变少、工具调用减少、思考变浅。这两种完全相反的行为变化,对应了截然不同的下游效果,也说明不同的RL数据会把AI推向截然不同的解题风格。
九、先"看例子"再"自己练",比单独做任何一件事都强
研究团队还测试了一个重要的组合问题:监督微调(SFT,看例子学)和强化学习(RL,自己练)应该怎么搭配?
他们发现,最佳策略是"先用少量数据做一轮轻度监督微调,再用强化学习继续提升"。具体来说,先在SWE-Smith的示范数据上做一个轻量级SFT,得到一个"中等水平"的起点模型,然后再用pymethods2test做RL。这个组合在8B规模的模型上,平均得分达到27.9%,超过了"只做100K数据的SFT"(27.4%)和其他所有基线。
为什么"中等水平"的SFT起点反而更好?因为SFT做得太好、太满的模型,反而很难被RL进一步改善——它已经学到了一套固定的解题方式,强化学习的信号无法驱动它突破。而一个有基础但还有提升空间的模型,才能在RL阶段得到最大的收益。这个发现也和其他研究团队的结论一致:SFT和RL的最佳衔接,是让SFT"刚好够用",给RL留足空间。
十、最终成绩单:在七个测试上的全面对比
把所有这些环节组合起来后,研究团队用10万条数据训练了Qwen3-32B模型,得到了OpenThinkerAgent-32B。在七个不同的智能体测试上,这个模型的平均得分是44.8%,超过了此前最强的同类开源模型Nemotron-Terminal-32B(40.9%)、SWE-Lego-Qwen3-32B(34.7%)和SERA-32B(28.1%)。
在具体测试上,OpenThinkerAgent-32B在SWE-Bench Verified(代码Bug修复)上达到54.0%,在Terminal-Bench 2.0(终端操作)上达到26.2%,在Aider Polyglot(多语言代码编辑)上达到32.4%,在BFCL-Parity(函数调用)上达到85.9%,在GAIA-127(通用AI助手任务)上达到23.6%,在FinanceAgent-Terminal(金融研究任务)上达到44.0%。
特别值得一提的是,研究团队在设计实验时,专门把Aider Polyglot、BFCL、MedAgentBench、GAIA和FinanceAgent-Terminal这五个测试"藏"了起来,在整个数据优化过程中完全不去看这些测试的结果,只在最后定稿后才评测。这样做是为了确保模型的提升是真正的泛化能力提升,而不是对特定测试"死记硬背"。结果这五个测试上的表现同样很好,说明研究的方法论是可靠的。
在MedAgentBench(医疗AI测试)上,Nemotron-Terminal-32B的得分62.6%反而高于OpenThinkerAgent-32B的47.8%,研究团队坦承这个差距值得进一步研究,并没有试图遮掩。这种客观呈现结果的态度,正是开源研究的价值所在。
最后,研究团队也坦诚地指出了这项工作的局限:强化学习实验由于计算成本,只在8B规模的模型上进行,能否迁移到32B规模还是未知数;所有实验都使用Qwen3作为基础模型,基础模型预训练的贡献无法被单独分离评估;最大的训练集是10万条,更大规模下的趋势是否还会持续,也还没有答案。
说到底,这项研究最有价值的贡献,不只是训练出了一个更好的模型,而是把"怎么系统地制作智能体训练数据"这件原本完全不透明的事情,变成了一套有据可查、可以复现的方法论。它告诉所有人:训练一个能干活的AI,用什么题、怎么混合、谁来示范、怎么筛选,这每一步都有明确的最优策略,而不是靠运气和直觉。
这对普通人意味着什么?随着这些研究成果的开放,未来开源社区里能干活的AI助手会越来越多、越来越强,而且不再只是大公司的专利。你在日常工作中遇到的代码Bug、终端命令、研究任务,都有望被这类开放的AI智能体更好地辅助完成。你可能会好奇:如果数据食谱的每一步都摸清楚了,能否在更少的计算资源上,通过更精准的数据选择,训练出同样强大甚至更强的模型?这正是这项研究留给后续工作的最大问题,也是整个开源AI社区值得继续探索的方向。感兴趣的读者可以通过arXiv编号2606.24855查阅完整论文,以及在openthoughts.ai获取所有公开的训练数据和模型。
Q&A
Q1:OpenThoughts-Agent项目中,为什么GPT-5.3-Codex作为教师模型效果反而最差?
A:尽管GPT-5.3-Codex是测试中性能最强的模型,但它在Terminal-Bench 2.0上作为教师模型的效果比GLM-4.7-AWQ低了约5个百分点。研究团队分析认为,顶尖模型往往直接给出最短路径答案,而学生模型需要的是包含探索、调试和自我纠错过程的多步骤示范。GLM-4.7-AWQ生成的操作记录更长、探索步骤更多,反而更适合作为训练数据的"老师"。
Q2:OpenThinkerAgent-32B在七个基准测试上的平均得分是多少?
A:OpenThinkerAgent-32B在七个智能体基准测试上的平均准确率为44.8%,比此前最强的同类开源模型Nemotron-Terminal-32B(40.9%)高出3.9个百分点。具体来看,它在SWE-Bench Verified上达到54.0%,在Terminal-Bench 2.0上达到26.2%,在BFCL-Parity上达到85.9%,在FinanceAgent-Terminal上达到44.0%。
Q3:训练智能体模型时,监督微调和强化学习应该怎么搭配使用?
A:研究发现最佳策略是"先轻度监督微调,再强化学习"。具体而言,先用少量数据做一轮轻量级SFT让模型具备基础能力,再用强化学习继续提升。如果SFT做得太充分,模型会固化解题方式,RL反而难以发挥作用。在8B规模上,这种SFT+RL组合的平均得分达到27.9%,超过了只做100K数据SFT的27.4%。