微软和人大：让AI在虚拟计算机里"折腾"，智能水平竟然飙升了_热点

微软和人大：让AI在虚拟计算机里"折腾"，智能水平竟然飙升了

创始人

2026-01-26 21:15:13

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：科技行者）

这项由微软研究院和中国人民大学高瓴人工智能学院联合开展的研究发表于2025年1月的arXiv预印本平台，论文编号为arXiv:2601.16206v1 [cs.CL]，清华大学也参与了这项开创性工作。研究团队发现了一个令人意外的现象：当我们给大语言模型提供一个虚拟的计算机环境让它自由"折腾"时，它在各种非编程任务上的表现都会显著提升。

回想一下我们平时使用电脑的场景。当你需要完成一个复杂任务时，比如制作一个包含多种数据的报告，你可能会打开浏览器搜索资料，用文本编辑器记录要点，运行计算程序处理数字，最后把所有内容整合起来。而传统的AI模型就像是一个只能坐在那里冥思苦想的人，它只能基于已有知识给出答案，却无法像我们一样主动去"折腾"各种工具。

研究团队想到一个绝妙的主意：何不给AI模型也提供一台虚拟计算机呢？这台虚拟计算机就像一个完全隔离的沙盒环境，AI可以在里面自由地执行命令、创建文件、安装软件、运行程序，就像一个真正的用户在操作电脑一样。这种方法被称为"LLM-in-Sandbox"，直译过来就是"沙盒中的大语言模型"。

令人惊喜的是，当AI模型获得这种"动手能力"后，它们在数学、物理、化学、生物医学、长文本理解和指令遵循等各个领域的表现都出现了显著提升。更有趣的是，这些模型无需任何额外训练就能自发地学会利用虚拟计算机来解决问题。它们会主动安装专业软件包，利用文件系统处理超长文档，编写脚本来满足特定的格式要求。

这就好比我们突然发现，原本只会纸上谈兵的军师，一旦给了他一套完整的作战工具，立刻就能指挥千军万马。研究结果显示，不同的AI模型在获得沙盒环境后，性能提升幅度从1%到24%不等，这在AI领域算是相当可观的进步。

为了进一步提升这种能力，研究团队还开发了一种名为"LLM-in-Sandbox强化学习"的训练方法。这种方法特别巧妙，它不需要专门的智能体训练数据，而是使用普通的上下文任务来训练模型如何在沙盒环境中探索。结果表明，经过这种训练的模型不仅在沙盒模式下表现更好，甚至在传统的文本生成模式下也有所提升，这说明在沙盒中学到的技能可以迁移到其他场景。

从实用角度来看，这项研究还解决了一个重要问题：计算效率。对于需要处理长文档的任务，传统方法需要将所有内容都塞进AI的"记忆"中，这不仅消耗大量计算资源，还可能超出模型的处理能力。而沙盒方法则像是给AI配备了一个外部硬盘，它可以将文档保存为文件，需要时再读取相关部分，这样就把原本需要10万个字符的任务压缩到了1.3万个字符，效率提升了近8倍。

这项研究的意义远不止于性能提升。它实际上为AI的发展开辟了一条新路径：从单纯的文本生成工具，向能够在数字环境中主动操作的智能体转变。研究团队甚至展示了一些令人惊艳的案例：AI可以制作交互式旅行地图、设计会议海报、创作视频和音乐。这些都是传统的纯文本AI无法做到的事情。

更重要的是，研究团队将这套系统开源，并开发了Python包，让更多开发者可以轻松集成这项技术。他们的愿景是让沙盒环境成为AI服务的标准配置，就像现在的网络服务都配备数据库一样自然。

一、沙盒环境的设计哲学：简约而不简单的虚拟世界

想象一下你要给孩子准备一个游戏房间。你可以选择两种方案：一种是为每个特定游戏准备专门的房间和工具，另一种是提供一个简洁的基础房间，让孩子自己去添置需要的玩具。研究团队选择了后者，这就是他们设计理念的核心。

传统的代码智能体系统就像第一种方案，它们为每个特定任务配置专门的环境。比如处理软件工程问题时，系统会预先安装好各种编程工具和依赖包，这样做虽然针对性强，但也带来了巨大的存储负担。研究团队发现，一些软件工程任务的环境配置文件竟然需要6TB的存储空间，这对于大规模部署来说简直是噩梦。

相比之下，LLM-in-Sandbox就像一个基础版的Ubuntu系统，只预装了Python解释器和一些基本的科学计算库，整个环境文件只有1.1GB。这就好比给AI提供了一台"裸机"电脑，所有的专业软件都由AI根据任务需要自行安装。这种设计不仅节省了存储空间，更重要的是培养了AI的"自力更生"能力。

沙盒环境为AI提供了三种基础能力，这三种能力就像是人类使用电脑时的基本技能。第一种是外部资源获取能力，AI可以通过网络下载文件、安装软件包，就像我们在网上搜索资料一样。第二种是文件管理能力，AI可以创建、读取、修改文件，组织数据结构，这相当于我们整理电脑文件夹的过程。第三种是代码执行能力，AI可以编写并运行程序，执行各种计算任务，就像我们使用各种应用软件一样。

为了实现这些能力，研究团队设计了三个核心工具。第一个工具叫"execute_bash"，这是AI的"命令行助手"，可以执行任何终端命令。这个工具的强大之处在于它维护着一个持续的会话状态，就像我们在命令行中工作时，之前设置的环境变量和工作目录都会保持有效。第二个工具是"str_replace_editor"，这是AI的"文件管家"，专门负责查看、创建和编辑文件。第三个工具是"submit"，这是AI完成任务时的"提交按钮"。

研究团队特别强调了一个设计原则：探索性。他们的系统提示鼓励AI模型大胆尝试不同的解决方案，告诉它这是一个安全的隔离环境，可以随意实验。这种设计理念背后的逻辑很简单：既然计算机是人类有史以来创造的最通用的工具平台，那么给AI提供完整的计算机访问权限，理论上应该能解锁它们处理各种任务的潜力。

二、AI如何在虚拟世界中"大显身手"

当AI模型第一次进入这个虚拟计算机环境时，会发生什么呢？研究团队通过大量实验发现，即使没有经过专门训练，强大的AI模型也能自发地学会利用这个环境来解决各种问题。这种现象就像是你把一个从未见过电脑的聪明人放在电脑前，他很快就能摸索出如何使用各种软件一样。

让我们通过几个具体案例来看看AI是如何"大显身手"的。在化学任务中，AI需要根据化合物名称预测分子性质。面对这个挑战，AI展现出了令人印象深刻的问题解决能力。它首先尝试安装Python的化学计算库RDKit，但遇到了版本冲突问题。普通人遇到这种情况可能就放弃了，但AI却展现出了坚韧的"折腾"精神。它主动安装Java运行环境，然后下载专业的化学名称解析工具OPSIN，最终成功将化学名称转换为分子结构，完成了预测任务。

在长文本理解任务中，AI面临的是处理超过10万字符的行业报告。如果按传统方法，这些内容都要塞进AI的"记忆"中，这不仅消耗巨大，还可能导致信息丢失。但在沙盒环境中，AI展现出了类似人类处理大文档的智慧。它先用文件列表命令查看所有文档，然后使用grep命令搜索关键词，定位到相关段落后再仔细分析，最后编写Python脚本系统性地提取所需信息。这个过程就像一个研究员在图书馆中查找资料一样有条不紊。

最有趣的是指令遵循任务中的一个案例。AI需要生成三个关于中世纪历史的句子，但有个苛刻的约束条件：三个句子必须字符数完全相同，且不能有任何重复词汇。这对纯文本生成来说几乎是不可能完成的任务，因为需要精确计算和反复验证。但AI在沙盒环境中却找到了绝妙的解决方案。它编写了专门的字符计数程序，创建了词汇重复检测脚本，然后使用组合搜索算法在大量候选句子中寻找满足条件的组合，最终找到了363种可能的解决方案。

这些案例展现出的不仅是AI的技术能力，更是一种解决问题的思维模式。AI学会了将复杂问题分解为可操作的步骤，学会了利用工具来弥补自身的限制，学会了在遇到困难时寻找替代方案。这种能力的获得完全是自发的，没有人专门教过它这些技巧。

三、数据揭示的惊人规律：强者愈强，弱者需要帮助

研究团队通过大规模实验揭示了一个有趣的现象：不是所有AI模型都能从沙盒环境中获益。实验涵盖了数学、物理、化学、生物医学、长文本理解和指令遵循六个领域，测试了从顶级商业模型到开源小模型的各种AI系统。

结果呈现出明显的分层现象。顶级模型如Claude-Sonnet-4.5-Think和GPT-5在沙盒环境中如鱼得水，性能提升幅度在1%到24%之间。这些模型在不同领域展现出了不同的偏好：数学领域的提升最为显著，因为AI可以通过编程进行数值验证；化学领域的表现也很出色，因为AI会主动安装专业化学软件包；指令遵循任务中的提升同样明显，因为AI可以编写程序来精确满足各种约束条件。

然而，较弱的模型如Qwen3-4B-Instruct的表现却令人担忧。这些模型在沙盒环境中不仅没有提升，反而出现了性能下降。通过深入分析，研究团队发现了问题所在：弱模型虽然能够调用各种工具，但缺乏有效的探索策略。它们就像没有方向感的游客，在沙盒环境中漫无目的地"闲逛"，消耗了大量时间却没有完成有意义的操作。

数据显示了一个令人深思的对比：强模型平均只需要12.6轮交互就能完成任务，且每轮交互都很有针对性，工具使用率高达6%-21%。而弱模型却需要23.7轮交互，几乎是强模型的两倍，但工具使用率却不到3%，大部分时间都在做无效操作。这就像是两个人在同一个工具房里干活，一个人熟练地选择合适工具快速完成任务，另一个人却在工具间团团转，最终什么也没做成。

通过行为模式分析，研究团队发现不同任务领域对沙盒能力的需求也不同。数学任务最依赖计算能力，AI在这类任务中43.4%的操作都涉及数值计算和算法执行。化学任务最需要外部资源获取，18.4%的操作用于安装专业软件包和获取化学数据库。长文本理解任务则最依赖文件管理，平均需要27.2轮交互来处理复杂文档结构。

有趣的是，研究团队还发现了沙盒环境对长文本任务的特殊价值。当文档内容存储在沙盒文件中而非直接放在提示中时，所有强模型的表现都有显著提升，平均得分从35.6分提升到48.9分。这说明沙盒环境不仅提供了工具，更重要的是改变了AI处理信息的方式，让它能够像人类一样通过"翻阅文档"来获取信息，而不是依赖有限的"记忆容量"。

四、让AI学会"折腾"的训练秘籍

面对弱模型无法有效利用沙盒环境的问题，研究团队开发了一套创新的训练方法，称为"LLM-in-Sandbox强化学习"。这套方法的巧妙之处在于，它不需要专门的智能体训练数据，而是通过巧妙的任务设计让AI自然地学会在沙盒中探索。

传统的AI训练就像是给学生发一本教科书让他自己学习，而这种新方法更像是创造一个实践环境，让学生在动手操作中学习技能。具体来说，研究团队使用了大量基于上下文的任务，每个任务都包含背景材料和需要完成的目标。关键的设计在于，他们不是直接把背景材料给AI，而是将这些材料作为文件存储在沙盒环境中，这就迫使AI必须主动探索文件系统才能获取完成任务所需的信息。

这种设计有两个巧妙的策略。对于本身就包含多个文档的任务，研究团队会将文档拆分成多个文件，比如把一篇研究论文分解为摘要、引言、方法、结果等单独的文件。这样AI就必须学会如何在多个相关文件间导航和整合信息。对于原本只有单一文档的任务，他们会添加一些无关的干扰文件，这就像在图书馆里放置一些无关书籍，训练AI学会筛选和定位真正有用的信息。

训练过程采用了结果导向的奖励机制，这就像是在考试中只看最终答案是否正确，而不管学生使用了什么解题方法。这种设计鼓励AI探索各种可能的解决路径，只要最终能给出正确答案就能获得正向反馈。这样，AI就会自然地尝试各种工具组合和操作序列，逐渐学会高效的探索策略。

训练效果令人欣喜。原本在沙盒环境中表现糟糕的Qwen3-4B-Instruct模型，经过训练后发生了质的改变。它在沙盒模式下的表现开始全面超越传统模式，而且这种提升是全方位的，涵盖了从数学计算到指令遵循的各个领域。更令人惊喜的是，训练还产生了意外的正向效应：即使在不使用沙盒的传统模式下，训练过的模型表现也有所提升，这说明在沙盒中学到的问题分解和系统性思考技能可以迁移到其他场景。

对于原本就比较强的模型如Qwen3-Coder，这种训练方法同样有效，进一步提升了它们的沙盒利用能力。通过行为分析发现，训练后的模型在所有三种核心能力上都有提升：外部资源获取能力从5.7%提升到5.7%保持稳定，文件管理能力从24.1%提升到24.4%，计算能力从11.1%提升到11.9%。更重要的是，模型的操作变得更加高效，平均完成任务的交互轮数基本保持稳定，但每轮操作的有效性显著提升。

训练还带来了一个意外发现：AI在传统文本生成模式下也变得更有条理。研究团队发现，训练后的模型在纯文本回答中更经常使用结构化表达，比如标题分段、项目列举等，同时也更频繁地进行自我验证，会在答案中加入"让我们验证一下"、"检查这个结果"之类的表述。这说明在沙盒环境中学会的多轮交互和反馈验证模式，潜移默化地影响了AI的思维习惯。

五、计算效率的意外惊喜：省钱又快速

当研究团队开始分析LLM-in-Sandbox的实际部署成本时，他们发现了一些出人意料的结果。原本以为让AI在虚拟环境中"折腾"会大幅增加计算开销，但实际数据显示情况比预期要好得多。

最大的惊喜来自于长文本处理场景。传统方法需要将所有文档内容都塞进AI的输入中，这就像是要求一个人在开始工作前把整个图书馆的内容都背下来。而沙盒方法则让AI可以像人类一样，根据需要去"翻阅"相关文档。结果令人震撼：原本需要处理10万个字符的任务，在沙盒环境中只需要1.3万个字符，压缩比例达到了8:1。这意味着计算成本降低了近8倍，这对于需要处理大量文档的企业应用来说是巨大的节省。

在其他类型的任务中，情况则有所不同。数学、物理、化学等需要复杂推理的任务确实会增加一些token消耗，因为AI需要进行多轮交互和编程验证。但即便如此，整体的token消耗增幅也控制在合理范围内，大多数情况下增长不超过50%。而考虑到性能的显著提升，这个成本增加是完全值得的。

更有趣的是执行速度方面的发现。虽然沙盒模式需要多轮交互，看起来应该更慢，但实际测试显示速度表现出人意料地好。关键在于AI生成的大量内容实际上来自于环境执行结果，比如程序输出、文件内容等。这些内容不需要AI逐字生成，而是可以通过快速的"预填充"机制直接获得。

研究团队发现，在整个交互过程中，35%-50%的内容来自环境输出，而这部分处理只占总时间的不到4%。这就像是在打字时大部分时间花在思考上，而实际敲键盘的时间很短一样。结果是，不同模型在沙盒模式下的查询吞吐量表现差异很大：MiniMax模型甚至比传统模式快了2.2倍，而其他模型的速度基本持平或略有提升。

基础设施方面的开销同样令人满意。与需要为每个特定任务准备定制环境的传统代码智能体不同，LLM-in-Sandbox使用统一的轻量级Docker镜像。一个容器在空闲状态下只占用50MB内存，即使在高峰使用时也不超过200MB。即使在一个节点上同时运行512个沙盒容器，总内存占用也只有100GB，对于现代服务器来说完全可以接受。

存储方面的优势更加明显。传统的软件工程智能体系统可能需要数TB的任务特定环境镜像，而LLM-in-Sandbox只需要一个1.1GB的通用镜像就能处理所有类型的任务。这种"一镜像走天下"的设计不仅节省了存储空间，更重要的是简化了部署和维护的复杂度。

这些效率优势让LLM-in-Sandbox从一个有趣的研究原型变成了具有实际部署价值的技术方案。研究团队正是基于这些发现，才有信心将整个系统开源，并开发了易于集成的Python包，让更多开发者能够在实际项目中使用这项技术。

六、超越文本的新天地：AI成为真正的数字创造者

LLM-in-Sandbox最激动人心的价值或许不在于提升传统任务的性能，而在于它开启了AI的全新能力边界。传统的AI就像是一个只能用嘴说话的人，而沙盒环境则给了它一双可以操作工具的手。这种转变带来的不仅是能力的量变，更是本质的质变。

研究团队展示了四个令人惊艳的案例，每一个都展现了AI从"文本描述者"向"实际创造者"的转变。第一个案例是旅行规划。当用户要求制作一个东京三日游的行程安排时，传统AI只能生成一份文字版的建议清单。而在沙盒环境中，AI却能够创建一个真正可用的交互式地图网页。它主动安装了地图库Leaflet.js，设计了包含12个景点的数据结构，为每一天的行程设置了不同的颜色标识，最终生成了一个包含点击功能和路线显示的完整网页应用。

第二个案例展现了AI在视觉设计方面的潜力。面对制作会议海报的需求，AI不再满足于描述海报应该长什么样，而是真正动手制作。它根据JSON格式的活动信息，设计了SVG布局方案，实现了渐变背景和层次化的文字排版，最终通过专业工具将设计转换为高质量的PNG图片。虽然设计水平还达不到专业美工的标准，但这种从无到有的创造能力已经足够令人惊叹。

第三个案例涉及视频制作。当AI接到制作生日倒计时视频的任务时，它展现出了令人意外的创意实现能力。它使用图像处理库生成了360帧动画画面，每一帧都包含精心设计的装饰元素和倒计时数字，然后通过视频合成技术将这些画面组合成一个11秒的MP4视频。虽然内容相对简单，但这已经是从文字描述到实际视频产品的完整跨越。

最有艺术性的案例是音乐创作。AI接到创作"平静钢琴曲"的任务后，它没有像传统AI那样描述音乐应该如何如何，而是真正开始了作曲工作。它使用MIDI处理库，在A小调框架下创作了旋律线和和声进行，然后通过音频合成技术生成了实际可以播放的WAV音频文件，甚至还生成了简谱说明文档。虽然音乐的表现力还比较有限，但这种从概念到实物的创造过程已经具备了真正艺术创作的雏形。

这些案例的真正价值不在于当前作品的质量，而在于它们所展现的发展方向。AI开始具备了"工具使用的工具使用能力"——它不仅能使用预设的工具，更能根据需求主动发现、安装和学习新工具。在制作海报时，AI自主选择了CairoSVG工具；在视频制作中，它发现并掌握了MoviePy库；在音乐创作时，它学会了MIDIUtil和FluidSynth的配合使用。

更重要的是，AI展现出了类似人类的问题分解能力。面对复杂的创作任务，它会自然地将目标分解为可操作的步骤，然后逐步实现。这种能力的获得完全是自发的，没有人专门训练AI如何进行项目管理或创意实现。

当然，研究团队也坦诚承认了当前的局限性。生成的视频还只是简单的动画效果，缺乏复杂的场景变化；创作的音乐虽然结构正确但缺乏情感表达力；设计的海报遵循基本原则但缺乏专业水准。但正如研究团队指出的，随着AI能力的不断提升和沙盒环境的日益完善，这个方向具有巨大的发展潜力。

七、面向未来的技术愿景：重新定义AI的工作方式

通过LLM-in-Sandbox的研究，团队不仅解决了当前AI应用中的一些具体问题，更重要的是为AI技术的未来发展描绘了一个全新的蓝图。这个蓝图的核心理念是：AI不应该仅仅是一个文本生成工具，而应该成为能够在数字环境中主动操作的智能工作者。

研究团队提出了一个大胆的愿景：让沙盒环境成为AI服务的默认基础设施。就像现在的网络服务都标配数据库一样，未来的AI服务也应该标配计算环境。这种转变将彻底改变我们使用AI的方式。分析类任务将获得可验证的计算支持，不再依赖AI的"推测"而是基于实际运算；长文本任务将通过文件管理系统获得更高的处理效率；创意类任务将产生真正可用的数字作品，而不仅仅是文字描述。

这个愿景的实现需要解决几个关键挑战。首先是规模化部署的工程问题。虽然当前的实验显示沙盒环境的资源开销是可控的，但要支持数百万用户同时使用，还需要在容器调度、资源分配、安全隔离等方面做大量优化工作。研究团队已经开源了Python包并提供了与主流推理框架的集成方案，这是向工业化应用迈出的重要一步。

其次是AI能力的持续提升问题。虽然强大的AI模型已经能够自发地利用沙盒环境，但要让所有模型都具备这种能力，还需要在训练方法上继续创新。LLM-in-Sandbox强化学习只是一个开始，未来可能需要将沙盒交互能力纳入AI的预训练阶段，让这种能力成为AI的"天然本能"。

安全性是另一个必须重视的挑战。让AI在计算环境中自由操作，意味着必须建立完善的安全防护机制。当前的Docker容器隔离提供了基础保护，但面向大规模商用时，还需要更细粒度的权限控制、更严格的资源限制、更完善的行为监控。

除了技术挑战，这个愿景还将带来应用模式的深刻变革。传统的AI应用主要是"问答式"的：用户提问，AI回答。而沙盒化的AI将支持"协作式"的工作模式：用户提出需求，AI主动完成各种操作任务。这种变化将使AI从"咨询顾问"的角色转变为"执行助手"的角色。

研究团队还提出了用LLM-in-Sandbox作为智能体能力评估基准的想法。传统的AI评测主要关注最终输出的质量，而沙盒环境能够记录AI的完整操作过程，这让我们可以评估AI的探索策略、工具使用效率、问题解决路径等更深层的能力。这种评估方式提供的△值（沙盒模式得分减去传统模式得分）成为了衡量AI智能体潜力的新指标。

最令人兴奋的是"沙盒原生模型"的概念。研究团队设想，未来的AI模型应该从设计之初就考虑沙盒交互，将环境操作能力作为核心能力而不是附加功能。这样的模型不仅能够更好地利用计算环境，还可能发展出人类尚未预见的问题解决策略。

从更宏观的角度来看，LLM-in-Sandbox代表了AI发展的一个重要转折点。它标志着AI开始从模拟人类的语言能力转向模拟人类的行为能力，从理解世界转向改变世界。这种转变的深远意义可能需要时间才能完全显现，但它无疑为通用人工智能的实现开辟了一条全新的路径。

说到底，这项研究最大的价值在于它改变了我们对AI能力边界的认知。原来我们以为AI就是一个超级聪明的"嘴巴"，现在才发现给它一双"手"之后，它能做的事情远超我们的想象。当AI开始在虚拟世界中"折腾"各种工具时，它距离真正理解和操作我们的数字世界又近了一大步。这不仅是技术的进步，更是AI向真正智能体演进的重要里程碑。

Q&A

Q1：LLM-in-Sandbox具体是什么，和普通的AI模型有什么区别？

A：LLM-in-Sandbox就是给AI模型提供一个虚拟的计算机环境，让它可以像人类用电脑一样去执行命令、创建文件、安装软件、运行程序。普通AI只能基于已有知识文字回答问题，而LLM-in-Sandbox的AI可以主动"动手操作"来解决问题，比如安装专业软件、编写程序验证答案、处理复杂文档等。

Q2：这个沙盒环境训练需要什么特殊的数据吗？

A：不需要专门的智能体训练数据。研究团队开发的LLM-in-Sandbox强化学习方法使用普通的上下文任务数据，只是将背景材料存储为沙盒中的文件而不是直接给AI，这样就自然地训练AI学会在环境中探索获取信息，这种方法既简单又高效。

Q3：使用LLM-in-Sandbox会不会很费钱很慢？

A：实际上在很多场景下反而更省钱更快。特别是处理长文档时，传统方法需要处理10万个字符，而沙盒方法只需1.3万个字符，节省近8倍成本。速度方面，由于大量内容来自环境输出而不需要AI逐字生成，有些模型甚至比传统模式快2倍多。

上一篇：光谷“十五五”目标锚定：综合实力进入全国高新区前五

下一篇：女子40万被骗子拆至1400余账户

微软和人大：让AI在虚拟计算机里"折腾"，智能水平竟然飙升了

相关内容

热门资讯