对标Genie 3,蚂蚁灵波开源世界模型LingBot-World
创始人
2026-01-29 12:47:05

1月29日,继连续发布空间感知与VLA基座模型后,蚂蚁灵波科技开源发布世界模型LingBot-World。据披露,该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上追平Google Genie 3,目标是为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场”。

针对视频生成中最常见的“长时漂移”问题(生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象),LingBot-World通过多阶段训练以及并行化加速,实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

交互性能上,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。此外,用户可通过文本触发环境变化与世界事件,例如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成变化。

模型具备Zero-shot泛化能力,输入一张真实照片(如城市街景)或游戏截图,可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集,从而降低在不同场景中的部署与使用成本。

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供精确对齐的训练信号。

目前,LingBot-World模型权重及推理代码已面向社区开放。

【来源:凤凰网科技】

相关内容

热门资讯

暑期档将至点燃影视院线板块!3... 影视板块看点多多。5月27日,A股影视院线板块上涨,截至收盘,百纳千成和欢瑞世纪(维权)涨停,捷成股...
伊朗南部发生能源设施装置事故 (来源:嘉兴日报)转自:嘉兴日报   新华社德黑兰5月27日电 据伊朗伊斯兰共和国广播电视台27日报...
【华西食品饮料】劲仔食品点评报... 华西食饮事件概述2025年公司实现营收24.43亿元,同比+1.28%;归母净利润2.43亿元,同比...
鞠玮婕:当AI遇见不动产 商办... (来源:商业客)商业客用三个关键词来表达AI在地产科技的应用,就是快速、高效和强大。本文整理自仲量联...
学做湖笔体验非遗 (来源:湖州日报)转自:湖州日报  南浔高级中学25名德国交换生近日走进湖州双鹿湖笔笔庄,探访湖笔制...