炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:科技行者)
这项由约翰霍普金斯大学张嘉瀚团队牵头,联合北京大学、普林斯顿大学、MIT、哈佛大学等多所知名院校研究人员的突破性研究,于2025年10月发表在计算机视觉领域顶级会议上。有兴趣深入了解的读者可以通过论文编号arXiv:2510.18135查询完整论文。这项研究首次提出了一个完全改变AI世界模型评估方式的开放平台World-in-World,彻底颠覆了传统只看视觉效果的评估标准。 当前的AI世界模型就像电影特效一样,能够生成逼真到令人惊叹的虚拟世界视频。然而问题在于,这些模型虽然看起来很炫酷,但它们在实际应用中的表现如何呢?就好比一个演员虽然长得很帅,但演技是否真的过关,只有让他真正上台表演才能知道。研究团队发现,现有的评估方法就像只看演员的宣传照片就决定是否让他主演电影一样不靠谱——它们只关注生成视频的视觉质量,却忽略了这些AI模型在真实任务中的实际表现能力。 研究团队面临的核心挑战是:如何真正测试这些AI世界模型在实际应用中的效果?传统的评估方法就像在实验室里测试汽车性能,只看发动机声音是否悦耳、外观是否漂亮,却不让汽车真正上路行驶。这种评估方式完全无法反映汽车在真实道路条件下的驾驶表现。同样,现有的世界模型评估也存在这个问题——它们被设计用来帮助AI智能体在虚拟环境中做决策,但评估时却只看生成的画面是否美观,而不测试它们是否真的能帮助AI完成具体任务。 为了解决这个根本性问题,研究团队创建了World-in-World这个革命性平台。这个平台的工作原理就像一个全方位的驾驶考试中心,不仅要求AI展示它能生成多么逼真的虚拟世界,更重要的是要求它在这些虚拟世界中真正完成各种复杂任务。这种评估方式就像让演员不仅要长得好看,还要真正能演戏、能感动观众一样。 一、突破传统束缚:从"看起来不错"到"真正有用" 传统的AI世界模型评估就像一场纯粹的选美比赛,评委们只关心参赛者是否足够美丽,却不在乎她们是否具备实际的才能和智慧。这种评估方式在AI领域造成了一个严重的问题:开发者们把所有精力都投入到让AI生成更加逼真、更加华丽的视频上,却忽略了这些AI是否真的能帮助解决实际问题。 World-in-World平台彻底改变了这种评估思路。它就像一个全新的竞赛规则,不再单纯看AI生成的视频有多漂亮,而是要求AI真正参与到复杂的互动任务中。这种评估方式就像从静态的摄影比赛转向动态的实战演练,AI必须在真实的环境交互中证明自己的价值。 研究团队设计的评估框架包含了一个巧妙的闭环系统。在这个系统中,AI不仅要生成虚拟世界,还要在这个世界中做出决策、执行行动、观察结果,然后基于新的观察继续做出下一步决策。这个过程就像一个人在真实世界中生活一样——你不能只是想象接下来会发生什么,你必须真正行动,然后根据行动的结果调整你的下一步计划。 这种闭环评估的创新之处在于,它能够揭示AI世界模型的真实能力。一个AI可能能够生成非常逼真的厨房场景,但当它需要指导一个机器人在这个厨房里实际做饭时,它是否还能保持同样的表现呢?World-in-World就是要回答这样的问题。 二、四大实战演练场:全方位测试AI的真实本领 为了全面测试AI世界模型的实际能力,研究团队精心设计了四个不同类型的任务场景,就像为不同类型的演员准备了不同风格的戏剧舞台。每个任务都对AI提出了不同的挑战,确保评估的全面性和公正性。 第一个任务是主动识别任务,就像让AI成为一个侦探,需要在复杂的环境中找到并识别特定的目标物体。这个任务的难点在于,目标物体往往被部分遮挡或者位于极其刁钻的角度,AI必须主动移动视角,寻找最佳的观察位置。这就像一个侦探在案发现场寻找线索,不能只是站在门口看一眼就下结论,而是要仔细搜查每个角落,从不同角度观察每个可疑物品。 第二个任务是图像目标导航,AI需要根据一张目标照片,在未知的环境中找到拍摄这张照片的确切位置。这个任务就像让AI成为一个导游,客人给它看了一张风景照片,它需要带着客人穿越复杂的地形,最终站在拍摄这张照片的确切地点。这个过程需要AI具备空间推理能力、路径规划能力,以及对环境细节的精确理解。 第三个任务是主动问答任务,AI需要在三维环境中主动探索,然后回答关于环境的开放性问题。这就像让AI成为一个记者,被派到一个全新的地方进行实地调研,它需要主动走访、观察、收集信息,最后写出一份准确的调研报告。这个任务特别考验AI的探索策略和信息整合能力。 第四个任务是机器人操作任务,AI需要控制机械臂完成精确的物体操作。这个任务就像让AI成为一个熟练的工匠,不仅要能看懂图纸,还要能真正动手制作。这是四个任务中最具挑战性的,因为它涉及到精确的物理交互,任何小的误差都可能导致任务失败。 研究团队在设计这些任务时特别注重真实性和多样性。每个任务都来源于真实世界的应用需求,而不是人为构造的简单测试。这样的设计确保了评估结果能够真正反映AI在实际应用中的表现潜力。 三、统一行动接口:让不同的AI说同一种语言 在World-in-World平台中,一个重要的技术突破是创建了统一的行动接口系统。这个系统就像一个万能翻译器,能够让使用不同"语言"的AI模型在同一个平台上公平竞技。 不同的AI世界模型就像来自不同国家的运动员,它们各自有着不同的训练方式和表达习惯。有些AI习惯通过文字描述来控制虚拟世界,比如"向前走三步然后左转";有些AI喜欢用精确的相机轨迹来描述动作,比如具体的坐标和角度;还有些AI直接使用底层的动作指令,比如具体的关节角度和力度设置。 统一行动接口的作用就像一个高级的同声传译系统,它能够理解每种AI的"方言",然后将这些不同的表达方式转换成标准的行动指令。这样一来,无论AI原本使用什么样的控制方式,最终都能在World-in-World平台上执行完全相同的任务,确保了比较的公平性。 这个接口系统包含三种主要的控制方式转换。对于喜欢用文字描述的AI,接口会将"向左转"这样的文字指令转换成具体的角度旋转。对于使用相机轨迹的AI,接口会将复杂的三维路径转换成一系列基础动作。对于直接使用底层指令的AI,接口会进行相应的格式转换和参数映射。 这种设计的巧妙之处在于,它既保持了每个AI模型的独特优势,又确保了评估的公平性。就像奥运会为不同项目的运动员提供统一的比赛规则和场地条件,但每个运动员仍然可以发挥自己独特的技术风格。 四、闭环在线规划:让AI真正学会思考和行动 World-in-World平台的核心创新之一是实现了真正的闭环在线规划系统。这个系统让AI的工作方式更加接近人类的思维模式——先观察环境,然后制定多个可能的行动方案,预测每个方案的结果,最后选择最优方案执行。 这个规划系统的工作过程就像一个经验丰富的棋手下棋。当面对一个复杂的棋局时,棋手不会冲动地直接落子,而是会在心中模拟多种可能的走法,想象每种走法可能引发的后续变化,然后选择最有利的那一步。AI在World-in-World平台中也是这样工作的。 具体来说,当AI面对一个任务时,它首先会使用提议策略生成多个候选行动序列。这就像一个人在十字路口时考虑的不同路线选择——可以直走、可以左转、也可以右转,每条路线都可能通向目的地,但效果可能不同。 接下来,AI会使用世界模型对每个候选方案进行虚拟演练。这个过程就像在脑海中预演不同的行动结果。世界模型会根据当前的环境状态和候选行动,预测未来可能出现的场景。这种预测不是简单的猜测,而是基于AI对世界运行规律的理解。 最后,AI会使用修正策略来评估所有的虚拟演练结果,选择最有希望成功的方案。这就像一个导演在众多剧本中选择最能打动观众的那一个。修正策略会考虑多个因素,包括任务完成的可能性、执行的效率、以及可能遇到的风险。 这种闭环设计的优势在于,它让AI能够从错误中学习,不断调整自己的策略。当AI执行了选定的行动并观察到实际结果后,它会将这些新信息融入下一轮的规划中,就像一个人根据路况调整驾驶策略一样。 五、后训练优化:让通用AI学会专业技能 研究团队还开发了一种创新的后训练方法,这种方法就像让一个多才多艺的通用演员接受专业的角色训练,使其能够更好地适应特定的表演需求。 大多数AI世界模型最初都是在互联网上的大量视频数据上训练的,这使得它们具备了广泛的通用能力,能够理解各种场景和物体。然而,这就像一个演员虽然经验丰富,但可能对某个特定类型的角色还不够专精。后训练的作用就是让这些通用的AI模型在特定的应用领域变得更加专业和精确。 后训练过程使用的数据非常特殊——它们都是包含行动和观察配对的序列数据。这就像给演员提供了详细的剧本和排练视频,不仅告诉他角色应该说什么话,还展示了角色在不同情况下的具体表现。这种数据让AI能够学习到行动和结果之间的精确对应关系。 研究团队发现,即使只用相对较少的专业数据进行后训练,AI的表现也能得到显著提升。这个发现特别令人鼓舞,因为它意味着不需要从零开始训练新的AI模型,而是可以在现有的强大模型基础上进行针对性的改进。 更有趣的是,研究团队发现了一个重要的规律:增加后训练数据的数量会持续改善AI的表现,而且这种改善遵循一定的数学规律。这就像健身一样,训练量的增加会带来体能的相应提升,而且这种提升是可以预测的。这个发现为未来的AI模型训练提供了重要的指导原则。 六、惊人发现:颜值与实力并不成正比 World-in-World平台揭示了AI世界模型领域的一个惊人真相——那些看起来最漂亮、视觉效果最炫酷的AI模型,在实际任务中的表现往往并不是最好的。这个发现就像发现了娱乐圈的一个秘密:最上镜的演员未必是最会演戏的。 研究团队通过大量实验发现,传统的视觉质量评估指标与实际任务成功率之间几乎没有相关性。一个AI模型可能生成的视频画质清晰、色彩鲜艳、细节丰富,看起来就像好莱坞大片一样精美,但当它需要指导一个机器人完成具体任务时,表现可能还不如一个画质普通但控制精确的模型。 这种现象的原因在于,视觉质量和控制能力是两个完全不同的技能。就像一个摄影师可能非常擅长拍摄美丽的风景照片,但不一定擅长指导别人如何到达拍摄地点。AI世界模型也面临类似的情况:生成漂亮画面的能力和精确控制虚拟世界的能力是两回事。 研究团队特别强调了"可控性"这个概念的重要性。可控性就像汽车的方向盘灵敏度,一辆外观华丽的跑车如果方向盘反应迟钝,在实际驾驶中的表现就会很糟糕。同样,一个AI世界模型如果不能精确地响应控制指令,即使生成的画面再美丽,也无法在实际应用中发挥作用。 这个发现对整个AI行业具有重要的指导意义。它提醒开发者们,在追求视觉效果的同时,不能忽视控制精度的重要性。这就像提醒汽车制造商,在设计漂亮外观的同时,不能忽视发动机性能和操控性能。 七、数据规模效应:多多益善的训练定律 研究团队在World-in-World平台上发现了一个重要的规律:AI世界模型的表现与训练数据的规模之间存在着清晰的正比关系。这个发现就像确认了"熟能生巧"这个古老智慧在AI领域的适用性。 具体来说,当研究团队将后训练数据从400个样本增加到8万个样本时,AI模型的任务成功率呈现出稳定的上升趋势。这种上升不是随机的,而是遵循着可以预测的数学模式。这就像一个运动员的训练时间与比赛成绩之间的关系——训练时间越长,成绩提升越明显,而且这种提升是可以量化预测的。 更有趣的是,研究团队发现,使用专门的行动-观察数据进行后训练,比简单地使用更大的预训练视频生成模型更加有效。这个发现就像发现了一个运动训练的秘诀:针对性的专项训练比盲目增加训练量更能提升特定技能。 例如,一个参数量达到140亿的大型AI模型,在经过相对较少的专业数据训练后,其表现可能超过一个参数量更大但没有经过专业训练的模型。这说明了训练方法的重要性——正确的训练方向比纯粹的规模扩大更有价值。 这个发现还揭示了一个实用的策略:与其从头开始训练一个全新的巨型模型,不如选择一个基础能力较强的现有模型,然后用高质量的专业数据对其进行针对性训练。这种方法不仅更加经济高效,而且往往能取得更好的效果。 研究团队还发现,较大的模型在后训练过程中表现出更强的学习能力和更少的性能饱和现象。这就像不同天赋的学生在接受相同教育时表现出的差异——天赋更高的学生往往能够吸收更多知识,并且学习曲线更加陡峭。 八、推理时间计算:给AI更多思考时间 World-in-World平台的另一个重要发现是,给AI分配更多的推理时间能够显著提升其任务表现。这个发现就像证实了一个简单的道理:深思熟虑的决策往往比匆忙做出的决策更加明智。 在传统的AI评估中,通常要求AI快速给出答案,就像限时考试一样。但在World-in-World平台上,研究团队允许AI在做决策前进行更多的"思考"——具体来说,就是让AI生成更多的候选方案,并对每个方案进行更详细的虚拟演练。 实验结果显示,当AI每次决策时的推理次数从3次增加到11次时,任务成功率出现了明显的提升。这就像一个棋手从快棋模式切换到慢棋模式,有了更多时间思考每一步棋的后果,自然能够下出更好的棋。 这种现象的原理在于,更多的推理时间让AI能够更全面地探索可能的行动空间。当面对复杂的任务时,第一个想到的解决方案往往不是最优的,需要通过比较多个方案才能找到最佳选择。这就像购买重要物品时,多看几家店铺、多比较几个选项,往往能够做出更满意的选择。 研究团队还发现,这种推理时间的增加带来的性能提升并不会很快达到饱和点。这意味着在计算资源允许的情况下,给AI分配更多的思考时间几乎总是有益的。这个发现对于实际应用具有重要意义,特别是在那些对准确性要求很高、而对实时性要求相对较低的场景中。 这种发现也启发了一种新的AI应用策略:在资源充足的情况下,可以让AI系统花费更多时间进行深度规划,从而在复杂任务中取得更好的表现。这就像在重要的商业决策中,花费更多时间进行市场调研和风险评估,往往能够得出更好的决策结果。 九、全景对比局部:视野广度的权衡 研究团队还探索了一个有趣的问题:给AI提供全景视野是否比提供局部视野更有优势?这个问题就像比较戴着广角镜头的摄影师和使用标准镜头的摄影师,谁能够拍出更好的作品。 实验中,研究团队比较了两种输入方式:一种是提供360度的全景图像,让AI能够"看到"周围的完整环境;另一种是只提供前方视野的标准图像,模拟人类的自然视觉范围。理论上,全景视野应该提供更多信息,从而帮助AI做出更好的决策。 然而,实验结果却显示,全景输入并没有在所有任务中都表现出明显优势。这个发现出乎意料,因为直觉上认为更多的信息应该总是有利的。研究团队分析后发现,问题可能出现在信息处理环节——当全景图像被转换为标准视角用于最终决策时,可能会丢失一些细节信息。 这种现象就像一个人戴着广角眼镜看世界,虽然能看到更大的范围,但可能会牺牲一些细节的清晰度。在需要精确识别和操作的任务中,细节的重要性可能超过视野的广度。 这个发现提醒我们,在设计AI系统时,需要根据具体任务的特点来选择合适的输入方式。对于需要空间导航的任务,全景视野可能更有优势;对于需要精细操作的任务,聚焦的局部视野可能更合适。这就像选择合适的工具来完成特定的工作——没有万能的最佳选择,只有最适合特定情况的选择。 十、机器人操作的挑战:精细动作的难题 在所有测试任务中,机器人操作任务表现出了最大的挑战性。这个发现揭示了当前AI世界模型的一个重要局限性:它们在处理需要精确物理交互的任务时仍然存在明显不足。 机器人操作任务就像要求AI成为一个精密的外科医生,不仅要能够看懂解剖图,还要能够实际操作手术刀进行精确的切割。这种任务对AI的要求远远超过了简单的视觉理解或路径规划,它需要AI对物理世界的运行规律有深入的理解。 研究团队发现,即使是表现最好的后训练模型,在机器人操作任务中的成功率提升也相对有限。这表明当前的AI世界模型在模拟复杂物理交互方面还有很大的改进空间。这些模型可能能够很好地预测一个物体从桌子上掉落的轨迹,但要精确模拟机械手抓取物体时的力度控制、接触点选择、以及物体变形等复杂现象,仍然是一个巨大的挑战。 这种限制的根源在于物理世界的复杂性。当机械手接触一个物体时,会涉及摩擦力、形变、重心变化等多种物理现象的相互作用。这些现象的精确建模需要大量的计算资源和高度精确的物理引擎,这超出了当前视觉生成模型的能力范围。 尽管如此,研究团队也观察到了一些积极的迹象。经过专门训练的模型确实在机器人操作任务中表现出了一定的改进,这说明通过合适的训练方法,AI世界模型在这个领域仍有提升的潜力。这就像一个学习外科手术的医学生,虽然距离成为专家还有很长的路要走,但通过不断的练习和学习,技能确实在逐步提升。 这个发现对于未来的研究方向具有重要的指导意义。它提示研究者们需要开发更加专业的物理建模能力,或者探索将传统物理仿真与AI视觉生成相结合的混合方法。 十一、跨模型比较:各显神通的AI选手 World-in-World平台提供了一个公平的竞技场,让来自不同"门派"的AI世界模型能够同台竞技。研究团队测试了多种不同类型的模型,从专门为特定任务设计的专业模型,到在互联网视频上训练的通用大模型,每种模型都展现出了独特的优势和劣势。 专业的图像生成模型,如PathDreamer和SE3DS,就像经验丰富的导游,它们专门为室内导航任务而设计,对三维空间的理解非常深入。这些模型在需要精确空间推理的任务中表现出色,但它们的应用范围相对有限,就像专业的登山向导虽然在山区非常厉害,但在城市导航中可能不如出租车司机。 通用的视频生成模型,如Stable Video Diffusion、LTX-Video等,就像多才多艺的表演艺术家,它们在各种不同的场景中都能展现出不错的表现。这些模型的优势在于它们见过的"世界"更加广阔,训练数据涵盖了互联网上的海量视频内容,因此对各种场景都有一定的理解。 有趣的是,一些最新的商业模型,如Runway Gen4,虽然在视觉质量上表现出色,但在某些实际任务中的表现却不如一些参数量较小但经过专门训练的模型。这再次证实了视觉质量与实际能力之间的脱节现象。 更令人惊讶的是,经过后训练的模型往往能够超越那些参数量更大的原始模型。例如,一个经过专门训练的20亿参数模型,在某些任务中的表现可能超过一个140亿参数的未经专门训练的模型。这个发现强调了训练方法和数据质量的重要性,证明了"巧劲"有时比"蛮力"更有效。 研究团队还发现,不同模型在不同任务中的表现排名会发生变化。一个在导航任务中表现优秀的模型,在机器人操作任务中可能表现平平。这种现象提醒我们,在选择AI模型时需要根据具体的应用需求来做决定,而不是简单地选择"最强"的模型。 十二、开放平台的价值:推动整个行业发展 World-in-World不仅仅是一个评估工具,更是一个开放的研究平台,旨在推动整个AI世界模型领域的健康发展。这个平台就像一个公共的运动场,为所有的研究者和开发者提供了一个公平竞技和相互学习的机会。 传统上,不同的研究团队往往使用不同的评估标准和测试环境,这使得不同模型之间的比较变得非常困难。这种情况就像不同的运动员在不同的赛道上比赛,很难确定谁的真实水平更高。World-in-World平台统一了评估标准,为所有模型提供了相同的测试条件,这使得比较结果更加可信和有意义。 平台的开放性还体现在它欢迎任何研究者贡献新的模型和改进方法。这种开放合作的模式有助于加速整个领域的进步,就像开源软件社区通过集体智慧推动技术发展一样。研究团队希望通过这种方式,能够吸引更多的研究者投入到实用性导向的AI世界模型研究中。 平台还提供了详细的性能分析工具,帮助研究者理解自己模型的优势和不足。这些工具不仅显示最终的成功率,还提供了详细的失败案例分析,帮助开发者找到改进的方向。这就像给运动员提供详细的比赛录像分析,帮助他们发现技术动作中的问题。 更重要的是,World-in-World平台推动了评估标准的转变——从单纯追求视觉效果向注重实际应用能力的转变。这种转变对整个行业的发展方向具有重要的引导作用,有助于将研究重点转向真正有用的技术突破。 十三、未来挑战与机遇:AI世界模型的发展方向 通过World-in-World平台的广泛测试,研究团队不仅发现了当前AI世界模型的优势,也清晰地识别出了未来需要攻克的主要挑战。这些发现为整个领域的未来发展描绘了一幅清晰的路线图。 首先是泛化能力的挑战。当前的AI世界模型在面对全新的、未见过的环境时,往往会出现性能下降的问题。这就像一个只在城市中开过车的司机突然要在山区驾驶,可能会感到不适应。研究团队发现,大多数AI模型都存在过度依赖训练数据的问题,当遇到与训练环境差异较大的新场景时,它们可能会产生不合理的预测。 长期规划能力是另一个重要挑战。当前的AI世界模型在短期预测方面表现不错,但在需要制定长期策略的任务中仍然存在困难。这就像一个人可能很擅长规划今天的行程,但在制定长期职业规划时可能会遇到困难。AI模型需要发展出更好的记忆机制和长期依赖建模能力。 精确的物理建模仍然是一个技术瓶颈。尽管当前的AI模型能够生成视觉上令人信服的物理现象,但要实现工程级别的精确度仍然是一个巨大挑战。这需要将传统的物理仿真方法与AI生成技术更好地结合起来。 然而,研究团队也看到了许多令人鼓舞的机遇。推理时间计算的效果表明,通过分配更多的计算资源,AI模型的性能可以得到显著提升。这为未来的性能优化提供了一条清晰的路径。 数据规模效应的发现也带来了希望。随着更多高质量的行动-观察数据被收集和标注,AI世界模型的能力有望持续提升。这种改进是可预测和可量化的,为未来的模型开发提供了科学的指导。 混合架构可能是未来的一个重要发展方向。将专门的物理仿真引擎与AI视觉生成模型相结合,可能能够实现既具有AI的灵活性又具有物理仿真精确性的理想系统。 说到底,World-in-World研究最重要的贡献并不仅仅是技术层面的突破,更在于它改变了整个AI世界模型领域的思维方式。它提醒我们,真正有价值的AI技术不应该只是看起来炫酷,更应该能够在实际应用中发挥作用。这种从"好看"到"好用"的价值观转变,可能会引导整个行业朝着更加实用和有意义的方向发展。 研究团队的工作就像在AI发展的历史长河中点亮了一座灯塔,为后续的研究者指明了方向。它告诉我们,评估AI能力的最好方法不是看它能生成多么精美的图像,而是看它能否真正帮助解决现实世界中的具体问题。这种评估理念的转变,可能会对未来AI技术的发展产生深远的影响。 随着越来越多的研究者开始关注AI的实际应用能力,我们有理由相信,未来的AI世界模型将不仅能够创造出令人惊叹的虚拟世界,更能够在这些世界中真正发挥实用价值,帮助人类解决各种复杂的现实问题。World-in-World平台的出现,标志着AI世界模型研究进入了一个新的时代——一个更加注重实用性和真实价值的时代。 Q&A Q1:World-in-World平台与传统AI世界模型评估方法有什么区别? A:传统评估只看生成视频的视觉质量,就像只看演员的宣传照就决定是否让他主演电影。而World-in-World要求AI在真实任务中表现,就像让演员真正上台演戏证明实力。它通过四个实际任务测试AI的真实能力,而不是单纯比较画面美观度。 Q2:为什么视觉质量好的AI模型在实际任务中表现不一定好? A:视觉质量和控制能力是两个不同技能,就像摄影师擅长拍美照但不一定擅长指路。AI可能生成很漂亮的视频,但当需要精确控制虚拟世界完成具体任务时可能表现糟糕。关键在于"可控性"——AI能否精确响应指令,而不是画面是否好看。 Q3:后训练对AI世界模型有什么作用? A:后训练就像让通用演员接受专业角色训练。通过使用行动-观察配对数据训练,AI能学会特定领域的专业技能。研究发现用较少专业数据进行后训练,效果比简单扩大模型规模更好,而且训练数据越多,AI表现提升越明显,遵循可预测的规律。