斯坦福、伯克利等：如何从零开始"喂饱"一个能干活的AI智能体？_热点

斯坦福、伯克利等：如何从零开始"喂饱"一个能干活的AI智能体？

创始人

2026-06-27 19:34:48

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：科技行者）

这项由斯坦福大学、加州大学伯克利分校、德克萨斯大学奥斯汀分校、加州大学洛杉矶分校、纽约大学、哈佛大学等数十家顶尖机构联合完成的研究，以预印本形式于2026年6月23日公开发布，论文编号为arXiv:2606.24855。感兴趣的读者可以通过这个编号在arXiv平台上查阅完整原文。

你有没有注意到，最近几年AI开始能帮人写代码、修Bug、甚至自己操作电脑了？这类"会干活"的AI，学术上叫做"智能体模型"（Agentic Model）。和只会聊天的AI不同，它们能在电脑里一步一步地完成复杂任务，就像一个远程的、不知疲倦的程序员助手。

然而，训练这样一个AI助手，最关键、也最神秘的部分——用什么数据去"教"它——几乎是整个行业的黑盒子。就连DeepSeek这样的顶级机构，发布了超过50页的技术报告，也只用了两段话含糊地提了一下数据的事。这让学术界和开源社区非常头疼：大家不知道怎么做，也没法互相学习。

正是为了打破这个黑盒，来自全球数十所顶尖大学和机构的研究人员联合发起了OpenThoughts-Agent（简称OT-Agent）项目。他们的目标不是藏着掖着，而是把训练智能体模型的"食谱"彻底公开出来——包括数据集、数据处理流程、实验过程和训练好的模型，全部开源。

这项研究的核心成果是：他们做了超过100个严格对照实验，系统地摸清了训练数据的每一个关键环节究竟影响有多大，然后用这套方法训练出了一个名为OpenThinkerAgent-32B的模型，在七个不同的智能体任务测评中，平均得分44.8%，比之前最强的开源智能体模型Nemotron-Terminal-32B高出了3.9个百分点。

一、为什么"喂什么"比"怎么喂"更重要

要理解这个研究，得先明白智能体模型是怎么被训练出来的。它本质上是一种"有监督微调"——你给AI看大量的例子，每个例子都是"某个任务"配上"从头到尾完成这个任务的操作记录"。AI看得多了，自然就学会了怎么做。

研究团队把这个训练数据的制作过程拆成了六个步骤，像一条流水线：第一步是收集或生成任务题目，第二步是把多个来源的题目混合在一起，第三步是对题目做各种加工或强化，第四步是筛掉质量差的题目，第五步是选一个合适的AI模型来示范"怎么做"，第六步是过滤掉质量差的示范操作记录，最后才得到可以用来训练的数据集。

这六个步骤中，研究团队惊奇地发现：最开始"从哪里找题目"这个环节，对最终效果的影响是最大的。不同题目来源之间，模型在SWE-Bench（一个著名的代码修复测试）上的表现差距可以高达30个百分点，在Terminal-Bench（一个测试AI操作终端能力的测试）上差距也有10个百分点。换个比喻来说，就像两个厨师技术相当，但一个用了新鲜食材，另一个用了过期食材，做出来的菜天差地别。

研究团队一共测试了95种不同的题目来源策略，涵盖了合成生成的GitHub代码问题、人工撰写的Linux操作问题、编程竞赛题目、各类技术问答平台的内容等等。结果发现，排名靠前的来源主要分两类：一类是以"修复代码Bug"为核心的任务，比如SWE-Smith和IssueTasks；另一类是人类真实写下的电脑操作问题，比如StackExchange上关于Linux服务器管理和Tezos区块链的帖子。这两类题目分别在代码修复测试和终端操作测试上各有所长，也揭示了一个重要规律：特定类型的训练数据，擅长提升特定类型的能力。

二、混合搭配比单一来源更聪明

找到了好的题目来源，下一个问题是：该用哪几种来源，各占多少比例？

研究团队的做法很直接：按排名把最好的1个、2个、4个……直到32个来源都试了一遍，每次都从每个来源里平均取同等数量的题目，拼成1万条数据来训练模型。结果非常清晰：混合排名靠前的4到8个来源效果最好，比只用排名第一的来源要强。

这背后的逻辑很好理解：只用代码修复类题目，模型在代码测试上表现不错，但在终端操作测试上就掉链子；只用操作问题，情况反过来。而混合搭配，就能让模型在两方面都不拉垮，泛化能力更强。不过来源数量也不是越多越好，扩展到16个甚至32个来源后，效果反而开始下降，说明低质量来源的噪音开始拖后腿了。

三、对题目做"二次加工"几乎没用

既然有了一批好题目，很多人会想：能不能用AI把题目改造一下，让它更难、更多样、更清晰，从而提升训练效果？

研究团队测试了多种"题目增强"方案，包括让AI自动给题目加约束条件、把题目改得更难、把多个来源的题目混合改写，以及给题目附上"提示线索"等。结论非常干脆：所有这些增强方案，和啥也不改的原始题目相比，在统计上没有任何可靠的提升，差异基本在误差范围内。

这是一个反直觉但重要的发现：AI自动改写题目，并不能代替高质量的原始题目来源。与其花精力"装饰"题目，不如把更多资源用在寻找优质的原始来源上。

四、用AI帮忙筛题，效果比随机好了3个百分点

虽然改写题目没用，但从一堆题目里挑出好的题目，还是有意义的。

研究团队测试了几种筛选方法：随机抽取、用嵌入向量度量多样性来筛、用另一个AI打分来筛，以及让GPT-5来解这批题目，看它需要多少字才能解完——需要更多字的题目，往往更有挑战性，也更有训练价值。

结果显示，"让GPT-5解题，选那些GPT-5需要写更长回答才能解决的题目"这个方法，比随机抽取平均高出了约3个百分点。可以把这理解为：你在备考时挑选练习题，应该优先选那些让你需要认真思考才能解出来的中难题，而不是一堆你闭着眼睛就能做对的简单题。

五、"老师"不是越强越好——这可能是整个研究最反直觉的发现

在有了一批好题目之后，接下来需要找一个AI模型来"示范"怎么做这些题目——这个示范的AI叫做"教师模型"。直觉上，教师模型越强，教出来的学生不是应该越好吗？

研究团队选了几个当时能用的顶尖模型来当老师，包括当时SWE-Bench表现最强的GPT-5.3-Codex，以及GLM-4.7-AWQ（一个量化的GLM模型）、Kimi K2.5、GLM 5等。结果让所有人大跌眼镜：GPT-5.3-Codex虽然是这几个里能力最强的，但它当老师的效果是最差的，在Terminal-Bench上比GLM-4.7-AWQ当老师的效果低了整整5个百分点。而最终效果最好的老师，是GLM-4.7-AWQ，一个性能反而相对弱一些的量化模型。

为什么会这样？研究团队的分析指向了一个关键：老师示范的操作步骤的长度和多样性。GLM-4.7-AWQ生成的操作记录更长、包含更多的探索步骤，这对学生模型的学习更有价值。顶尖的GPT-5.3-Codex可能太聪明了，直接给出了最短路径的答案，而学生模型需要的恰恰是更多的"思考过程"示范。这就像一个老手程序员解题时可以一步到位，但给初学者看的教学过程应该包含更多探索和纠错的环节，才更有帮助。

六、过滤掉"太短"的操作记录，模型变得更聪明

收集到的AI示范操作记录（学术上叫"轨迹"）并非质量一致。研究团队测试了几种过滤方式：去掉超时的记录、去掉"子智能体"产生的记录，以及过滤掉步骤数少于5步的"短轨迹"。

结果清楚表明，过滤掉步骤少于5步的轨迹效果最好，在所有三个测试基准上都胜过了其他过滤方式。更重要的是，研究团队专门做了一个"公平对比"实验：把"只用5步以上轨迹"和"随机抽取同等数量的Token（也就是同等训练计算量）的轨迹"做对比，前者依然明显更好，说明不是因为训练了更多的字，而是因为步骤更多的轨迹质量本身就更高。多步骤的操作记录包含了更丰富的探索、调试和修正过程，这些正是AI最需要学习的"解题思路"，而不只是最终答案。

七、数据规模扩大时，怎么让效果持续提升

在确定了最佳的数据制作策略后，研究团队开始考虑：怎么把数据集从1万条扩展到10万条，同时保持效果持续提升？

最简单的方法是"每道题多做几遍示范"，也就是对同一批题目生成更多轨迹。研究发现，这个方法在3.16万条之前有效，但从3.16万条扩展到10万条时，效果基本停滞了——SWE-Bench只涨了3个百分点，Terminal-Bench甚至微降了2个百分点，两个变化都在误差范围内。这说明问题不是示范次数不够，而是题目本身的多样性遇到了瓶颈。

研究团队的另一条思路是"合成新题目"——针对现有题目数量最少的来源（Tezos只有997道题），用AI把这些题目改写成不同的表述方式，从约902种不同的题目扩展到了超过2.1万种。注意，这里并不是"改造题目让它更难"（之前试过没用），而是保持题目本质不变，只改变表述方式，增加题目的表面多样性。同时，他们用GPT-5-nano来给题目打一个"难度分"，按难度比例分配每道题被训练到的次数，而不是简单地硬性丢掉一部分题目。

这个方法效果显著：从3.16万条扩展到10万条时，效果在所有三个测试上都持续提升，SWE-Bench提升了7.7个百分点，Terminal-Bench提升了5个百分点。最终10万条数据训练出的32B模型，在Terminal-Bench 2.0上达到26.2%，在SWE-Bench Verified上达到54.0%，相比同类开源模型遥遥领先。

八、强化学习：让AI在"做中学"，而不只是"看中学"

除了上面说的"监督微调"（看例子学），研究团队还研究了"强化学习"（RL）——让AI自己去做任务，做对了给奖励，做错了不给奖励，让它在反复尝试中自我改进。

在强化学习阶段，研究团队同样发现了"用什么数据训练"这个问题的重要性。他们测试了8种不同的训练数据来源，包括把编程竞赛题目改造成Python函数测试的pymethods2test、真实代码Bug修复数据集inferredbugs、自然语言转Bash命令的nl2bash等。这8种来源之间，最终测试效果相差了7.6个百分点，远超正常的运行误差。

效果最好的是pymethods2test——一个把Codeforces、CodeChef等竞赛平台的题目重新包装成Python函数测试的数据集。这类题目的特点是：难度适中（不会太简单也不会太难）、格式统一、有自动判分的单元测试。研究团队分析认为，正是这种"中等难度"让模型处于最有利的学习区间：太简单的题AI一蒙而过学不到东西，太难的题AI根本做不出来也学不到东西，难度适中才能让模型在尝试中真正提升。

更有趣的是，研究团队通过详细的行为分析发现，在pymethods2test这个数据上做强化学习后，AI的行为发生了明显变化：它开始"思考"更多（思考文字量翻了一倍多），调用更多工具，自我纠错更频繁，整体解题步骤也变长了。这说明RL真的让AI学会了更深入探索问题，而不是找到了什么作弊捷径。

相比之下，另一个数据集llm-verifier-freelancer训练后，AI反而变得更"简洁"了：步骤变少、工具调用减少、思考变浅。这两种完全相反的行为变化，对应了截然不同的下游效果，也说明不同的RL数据会把AI推向截然不同的解题风格。

九、先"看例子"再"自己练"，比单独做任何一件事都强

研究团队还测试了一个重要的组合问题：监督微调（SFT，看例子学）和强化学习（RL，自己练）应该怎么搭配？

他们发现，最佳策略是"先用少量数据做一轮轻度监督微调，再用强化学习继续提升"。具体来说，先在SWE-Smith的示范数据上做一个轻量级SFT，得到一个"中等水平"的起点模型，然后再用pymethods2test做RL。这个组合在8B规模的模型上，平均得分达到27.9%，超过了"只做100K数据的SFT"（27.4%）和其他所有基线。

为什么"中等水平"的SFT起点反而更好？因为SFT做得太好、太满的模型，反而很难被RL进一步改善——它已经学到了一套固定的解题方式，强化学习的信号无法驱动它突破。而一个有基础但还有提升空间的模型，才能在RL阶段得到最大的收益。这个发现也和其他研究团队的结论一致：SFT和RL的最佳衔接，是让SFT"刚好够用"，给RL留足空间。

十、最终成绩单：在七个测试上的全面对比

把所有这些环节组合起来后，研究团队用10万条数据训练了Qwen3-32B模型，得到了OpenThinkerAgent-32B。在七个不同的智能体测试上，这个模型的平均得分是44.8%，超过了此前最强的同类开源模型Nemotron-Terminal-32B（40.9%）、SWE-Lego-Qwen3-32B（34.7%）和SERA-32B（28.1%）。

在具体测试上，OpenThinkerAgent-32B在SWE-Bench Verified（代码Bug修复）上达到54.0%，在Terminal-Bench 2.0（终端操作）上达到26.2%，在Aider Polyglot（多语言代码编辑）上达到32.4%，在BFCL-Parity（函数调用）上达到85.9%，在GAIA-127（通用AI助手任务）上达到23.6%，在FinanceAgent-Terminal（金融研究任务）上达到44.0%。

特别值得一提的是，研究团队在设计实验时，专门把Aider Polyglot、BFCL、MedAgentBench、GAIA和FinanceAgent-Terminal这五个测试"藏"了起来，在整个数据优化过程中完全不去看这些测试的结果，只在最后定稿后才评测。这样做是为了确保模型的提升是真正的泛化能力提升，而不是对特定测试"死记硬背"。结果这五个测试上的表现同样很好，说明研究的方法论是可靠的。

在MedAgentBench（医疗AI测试）上，Nemotron-Terminal-32B的得分62.6%反而高于OpenThinkerAgent-32B的47.8%，研究团队坦承这个差距值得进一步研究，并没有试图遮掩。这种客观呈现结果的态度，正是开源研究的价值所在。

最后，研究团队也坦诚地指出了这项工作的局限：强化学习实验由于计算成本，只在8B规模的模型上进行，能否迁移到32B规模还是未知数；所有实验都使用Qwen3作为基础模型，基础模型预训练的贡献无法被单独分离评估；最大的训练集是10万条，更大规模下的趋势是否还会持续，也还没有答案。

说到底，这项研究最有价值的贡献，不只是训练出了一个更好的模型，而是把"怎么系统地制作智能体训练数据"这件原本完全不透明的事情，变成了一套有据可查、可以复现的方法论。它告诉所有人：训练一个能干活的AI，用什么题、怎么混合、谁来示范、怎么筛选，这每一步都有明确的最优策略，而不是靠运气和直觉。

这对普通人意味着什么？随着这些研究成果的开放，未来开源社区里能干活的AI助手会越来越多、越来越强，而且不再只是大公司的专利。你在日常工作中遇到的代码Bug、终端命令、研究任务，都有望被这类开放的AI智能体更好地辅助完成。你可能会好奇：如果数据食谱的每一步都摸清楚了，能否在更少的计算资源上，通过更精准的数据选择，训练出同样强大甚至更强的模型？这正是这项研究留给后续工作的最大问题，也是整个开源AI社区值得继续探索的方向。感兴趣的读者可以通过arXiv编号2606.24855查阅完整论文，以及在openthoughts.ai获取所有公开的训练数据和模型。

Q&A

Q1：OpenThoughts-Agent项目中，为什么GPT-5.3-Codex作为教师模型效果反而最差？

A：尽管GPT-5.3-Codex是测试中性能最强的模型，但它在Terminal-Bench 2.0上作为教师模型的效果比GLM-4.7-AWQ低了约5个百分点。研究团队分析认为，顶尖模型往往直接给出最短路径答案，而学生模型需要的是包含探索、调试和自我纠错过程的多步骤示范。GLM-4.7-AWQ生成的操作记录更长、探索步骤更多，反而更适合作为训练数据的"老师"。

Q2：OpenThinkerAgent-32B在七个基准测试上的平均得分是多少？

A：OpenThinkerAgent-32B在七个智能体基准测试上的平均准确率为44.8%，比此前最强的同类开源模型Nemotron-Terminal-32B（40.9%）高出3.9个百分点。具体来看，它在SWE-Bench Verified上达到54.0%，在Terminal-Bench 2.0上达到26.2%，在BFCL-Parity上达到85.9%，在FinanceAgent-Terminal上达到44.0%。

Q3：训练智能体模型时，监督微调和强化学习应该怎么搭配使用？

A：研究发现最佳策略是"先轻度监督微调，再强化学习"。具体而言，先用少量数据做一轮轻量级SFT让模型具备基础能力，再用强化学习继续提升。如果SFT做得太充分，模型会固化解题方式，RL反而难以发挥作用。在8B规模上，这种SFT+RL组合的平均得分达到27.9%，超过了只做100K数据SFT的27.4%。

上一篇：联合健康自低点上涨80% 相关损害属实还是仅被掩盖

下一篇：受科技股抛压及地缘政治紧张局势影响华尔街主要股指本周收跌

斯坦福、伯克利等：如何从零开始"喂饱"一个能干活的AI智能体？

相关内容

热门资讯