谷歌Genie 3官宣:一句话生成3D世界,但普通人还玩不上
创始人
2025-08-06 11:07:33

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:网易科技报道)

8月6日消息,谷歌DeepMind近日发布了其AI“世界模型”(world model)的新版本Genie 3。 该模型能够基于用户提示词,实时生成可供用户及AI智能体(AI agent)进行互动的3D环境。据谷歌介绍,Genie 3在互动时长和场景记忆的连贯性上,均较前代版本有显著提升。

世界模型是一种可以模拟环境的AI系统,其应用场景包括教育、娱乐以及机器人或AI智能体的训练。与传统视频游戏依赖3D资产手动构建世界不同,世界模型完全由AI根据提示词生成可供用户探索的空间。谷歌正大力投入该领域,不仅在去年十二月展示了可基于图片生成互动世界的Genie 2,目前还在组建一支专门的世界模型团队,该团队由OpenAI视频生成工具Sora项目的一位前联合负责人领导。

根据谷歌发布的一篇博文,Genie 3在核心性能上实现了多项关键迭代。其生成的互动世界,可支持“数分钟”的连续互动,相比Genie 2仅能实现的10至20秒互动时长,有了大幅提升。

此外,新模型增强了场景的“物体恒存”能力。谷歌表示,Genie 3能将空间在视觉记忆中保持约一分钟。这意味着,当用户在虚拟世界中将视线从一个物体上移开再转回时,墙上的油漆或黑板上的字迹等细节将保持原位,不会发生意外的扭曲或变化。技术规格方面,Genie 3生成的世界将拥有720p的分辨率,并以24fps的帧率运行。

DeepMind还在Genie 3中加入了一项名为“可提示化世界事件”(promptable world events)的新功能,允许用户通过提示词,直接改变世界中的天气状况或添加新的人物角色。

然而,Genie 3在发布初期将不会向公众开放。 谷歌方面称,该模型将首先以“有限研究预览版”的形式,提供给“一小部分学者和创作者”使用,以便其开发者能更好地理解潜在风险并制定适当的缓解措施。

目前,该模型仍存在一些限制,例如用户与生成世界的互动方式有限,以及清晰可读的文本“通常只有在输入的提示词描述中提供时才能生成”。谷歌表示,公司正在“探索”未来如何将Genie 3提供给“更多的测试者”。(易句)

(本文由AI翻译,网易编辑负责校对)

相关内容

热门资讯

匈奴人长什么样子?境外考古还原... 匈奴人长什么样子?不清楚的读者可以和趣历史小编一起看下去。这是一个长期以来困扰中国人和欧洲人的大问题...
安徽汽车职业技术学院最新或20... 我院毕业生具有理论知识扎实、技能突出等优势,主要在江汽集团公司及安徽省大中型企事业单位就业。第四章 ...
邯郸之战秦国为什么会输呢 只因... 今天趣历史小编给大家准备了:邯郸之战的文章,感兴趣的小伙伴们快来看看吧!长平之战后,秦国已经战胜当时...
为什么秦国会被称为虎狼之师 而... 今天趣历史小编给大家准备了:秦国虎狼之师的文章,感兴趣的小伙伴们快来看看吧!说到我国历史上的战国时期...
秦国书同文车同轨 秦国之前的文... 还不知道:七国文字的读者,下面趣历史小编就为大家带来详细介绍,接着往下看吧~秦国的统一,不仅仅是地域...