智东西
作者 陈骏达
编辑 心缘
智东西5月20日报道,今天,多模态AI企业考拉悠然和上海码极客发布悠然无界大模型。这是一款面向空间智能的多模态世界模型,具备空间感知、空间推理、具身执行、交互反馈等能力,将具身智能的大脑、小脑能力融合至单一模型。
在悠然无界大模型的基础上,考拉悠然和上海码极客还发布了空间智能Agent框架MAGXAgent,并使用这一框架打造了具备感知、决策、执行等能力的多款空间智能本体产品(如智能物流机器人)。
在物理常识与具身智能推理任务测评集上,悠然无界大模型超越了OpenAI o1、GPT-4o、Qwen2.5-VL系列、Cosmos-Reason1系列等主流开源及闭源大模型。
悠然无界大模型能够同时感知和理解数字空间、物理空间与社会空间,并具备跨模态的泛化能力和通用性,支持感知、决策、控制等多种任务的统一处理。
同时,它具备较强的抽象与迁移能力,能够跨越不同智能体与系统架构之间的差异,实现具身智能本体的协同与共享。
一、算力堆砌不等于真实生产力,需用世界模型链接物理世界
日前,考拉悠然首席执行官沈复民向智东西等媒体详细介绍了悠然无界大模型的技术细节与应用场景。
沈复民认为,空间智能是AI发展的下一个阶段。现有大语言模型在数字世界的成功,并不等同于在物理世界的价值,算力堆砌也不等于真实生产力。要弥补大模型能力与生产力之间的鸿沟,就需要打造世界模型,链接数字世界与物理世界。
本次发布的悠然无界大模型基于2023年推出的悠然大模型,后者是一款多模态的产业通用大模型,已在数十个行业落地。
悠然无界大模型在悠然大模型基础上,强化感知、推理、决策、交互四方面能力。在训练时,考拉悠然采用了多元异质数据联合建模的方式,将真实数据、仿真数据与互联网数据结合,并融入了跨领域知识,使模型的通用性更强。
悠然无界大模型在一个模型内部实现了感知-规划-执行闭环控制,既能理解自然语言形式的物理世界任务,也能感知具身智能本体的状态,驱动人形机器人、无人机、机器狗等终端智能体完成任务。
这一模型采用了考拉悠然提出的跨模态融合-自适应感知框架,解决了三维空间感知中的自由空间检测、小样本点云分类和开放世界目标识别等问题,提升了智能系统对复杂空间环境的理解与建模能力。
在空间规划与推理层,考拉悠然打造了多模态空间语义分解推理框架与分层子目标扩散规划算法,解决了复杂空间关系逻辑链建模与非结构化环境中长程路径规划问题。这是智能系统实现人类级空间推理与动态决策的关键。
涉及决策与执行时,悠然无界大模型采用的幻觉诱导优化算法,可解决多模态空间语义错位的难题。
二、打造空间智能Agent框架,听语音指令就能完成搬运任务
基础模型之外,考拉悠然和上海码极客打造了执行物理世界通用任务、驱动MAGX硬件运行的空间智能Agent框架MAGXAgent,并发布了一批智能体硬件本体产品。
MAGXAgent基于悠然无界大模型底座赋予的世界知识与空间理解能力,具备空间探知、自主决策、动态执行、交互反馈能力。未来可通过搭载于物流卸货机器人、无人机、机器狗等任务本体,执行完成应急救援、装卸运货、智能巡检等物理世界任务。
考拉悠然即将推出包括物流机器人MAGX Loader、智能巡检设备MAGX Patrol在内的一系列智能体硬件本体产品。
MAGX Loader展现了智能卸货机器人与悠然无界大模型能力结合后的应用场景,可完成复杂环境下的精准目标识别、自适应位姿估计、实时障碍物评估、动态任务调度、卸货路径优化、实时调整等一系列流程。它无需人工编程,只需输入一段语音指令,即可全程自主实现货品搬运。
结语:AI需要理解物理世界,多模态世界模型成热门方向
具备对物理世界的理解和推理能力的世界模型,正逐渐成为当前AI研究与应用的前沿方向。与传统依赖单一模态输入的模型不同,世界模型融合视觉、语言、动作、时间等多模态信息,让AI不仅能“看见”世界,更能“理解”和“预测”世界的变化。
有不少企业正加速布局这一赛道。谷歌已发布多款Genie系列世界模型,而英伟达在机器人与仿真领域有深度投入。与此同时,一批专注于世界模型的新兴创业公司如World Labs、Decart等,也在探索训练效率更高、泛化能力更强的世界模型架构。
考拉悠然是国内较早探索多模态AI与世界模型技术落地的企业之一,已在智慧城市、工业制造等场景积累了实际应用经验。其联合创始人、董事长申恒涛院士认为:“AI的真正落地,一定要让数字世界和物理世界融合。”