新智元报道
编辑:好困 定慧
【新智元导读】当好莱坞还在为预算头疼时,硅谷的AI、韩国的IP和中东的资本已经悄然联手,他们的目标是用一个全新的「导演级AI」物种,彻底重塑电影工业。
AI原生影视工作室Utopai Studios与全球创新投资平台Stock Farm Road(SFR)共同宣布,成立资本规模达数十亿美元的合资企业Utopai East。
SFR由LG集团继承人Brian Koo、阿联酋主权基金推动者Amin Badr-El-Din联合创立。
该合作旨在将AI影视生成技术从实验阶段推向大规模产业化,并押注正处在爆发期的全球韩流内容市场,以「AI原生工作流+韩娱+全球市场通道」的组合拳,为下一代视听内容生产提供全新范式。
黄金机遇
韩娱100倍的全球增长
在传统好莱坞电影产业深陷「高成本、低回报」的结构性困境之时,韩国流行文化正展现出惊人的全球吸引力与商业潜力。
根据最新行业数据,韩娱内容全球观看时长占比在短短五年内从22%迅猛提升至35%,Netflix平台上的《僵尸校园》《黑暗荣耀》等剧集连创观看时长新纪录,凸显了其稳固的受众基本盘。
更令人瞩目的是,融合了K-POP、奇幻叙事与顶级视效的创新IP《K-POP Demon Hunter》,在全球Z世代观众中引发了现象级热潮。
该IP首季全球流媒体播放量即突破12亿次,相关音乐榜单霸榜超过20周,衍生周边商品收入高达数亿美元,充分证明了优质韩流内容具备强大的跨文化穿透力和多元变现能力。
伴随着韩流内容全球市场需求激增,Utopai Studios创始人兼CEO Cecilia Shen和LG集团现任会长Brain Koo在采访中都认为,韩娱起码还有100倍的全球增长。
Utopai与SFR的联手,正是瞄准了这一机会。
SFR在韩国规划的350亿美元AI数据中心枢纽,将为Utopai的先进AI影视模型提供强大的算力底座,共同将高质量、电影级长片内容的生成从技术验证推向规模化、经济化的产业应用。
新公司Utopai East的治理结构也体现了深度整合,由LG北美创新中心高管Kevin Chong和CJ集团前国际化负责人Richard Lee领导,能够有效融合科技与文创资源。
同时,Cecilia将出任SFR战略顾问委员会首席创始成员,与Alphabet董事长John Hennessy等领袖共同制定AI影视伦理标准。
这一布局确保了技术、资本(特别是连接硅谷与中东的资本网络)与全球市场渠道的深度融合,目标是打造一个新型创作基础设施,助推韩国内容以好莱坞级制作标准高效对接全球市场,从而支持更多像《K-POP Demon Hunter》一样的顶级韩流IP,以更高效率和更可控的成本实现全球化制作与发行。
技术架构
「导演级AI」如何统筹全局
面对韩流内容日益增长的全球需求与叙事复杂度的不断提升,UtopaiAI模型的创新之处在于——
跳出了当前AI视频领域「Diffusion vs. AR」的模型之争,构建了一个以叙事为中心、具备因果规划能力的「导演级AI」系统架构。
Utopai的解决方案基于一个独特的洞察:传统AI视频技术的问题在于,它们是「画师」而非「导演」。
目前主流的Diffusion模型在专业影视制作中存在天然短板。
它本质上是「概率性生成模型」,擅长从噪音中「雕刻」出单帧高质量画面,但其逐帧或短片段独立生成的模式,缺乏对长叙事逻辑的全局规划能力。
这导致生成的视频难以保证人物外貌、动作和场景元素在不同镜头中的一致性。
Utopai的破解之道是构建一个「理解—生成」一体化的统一架构,采用前帧预测后帧的机制,其中「导演级AI」(采用自回归全能模型)扮演「总规划师」的角色。
该架构的核心是创建一个统一的状态空间,用于承载叙事、几何与运动约束。
· 规划器在此空间内对未来时空进行可预测的演化推演,并确保与历史观测高度一致;
· 渲染器则依据此规划生成最终画面,从而在长片段上实现可控的叙事一致性与高保真画质。
Utopai的架构精髓则在于规划与渲染的解耦。
上层的序列规划器(世界模型)充当系统的「导演大脑」,其核心任务是叙事规划与一致性约束。
它以脚本和分镜为输入,生成包含角色ID向量、关键帧布局、相机位置与运动轨迹、场景约束以及情绪走向曲线等细节的shot级时空计划。
更重要的是,规划器能维护一个可回放的长程状态记忆,确保在超长时程的叙事中,角色身份、场景状态和光影变化能够稳定演进,进而从根本上解决跨镜头元素「漂移」的难题。
在确定叙事蓝图后,专业化的生成模块(包含优化的Diffusion技术)下层的条件渲染器(时空扩散)则专注于执行高质量的画面生成。
它在潜空间进行操作,生成条件包括深度、法线、光流、遮罩、参考帧、相机轨迹等丰富的结构化信号。
这种分工使得规划器可以专注于长序列的因果结构与约束传播,充当「导演」角色;而渲染器(经过优化的Diffusion技术)则作为顶尖的「执行团队」,发挥其在画面细节与动态质感上的优势。
二者通过统一的状态接口紧密耦合,形成一个高效的闭环系统。
理解世界
独特的训练方法论
Utopai模型能力的飞跃源于其独特的训练方法论,核心是让AI从大量高质量、带精确标注的3D合成数据中学习。
与主要依赖网络二维视频进行训练的通用模型不同,这种方法使AI模型能够内化物理规律,从根本上理解空间、遮挡和碰撞等三维世界规则,有效避免生成内容违背物理规律的「幻觉」问题。
训练过程分为两个关键阶段:
1. 几何与语义对齐预训练:此阶段目标是建立模型对物理世界和视觉元素的底层理解,进行文本-视频-几何对齐以及下一状态/掩码重建等任务。
2. 多模态指令微调:此阶段增强模型对复杂、抽象的叙事指令和跨模态约束的遵循能力,使其能精准理解并实现导演的创作意图。
这种训练方式使模型能够对复杂的情感和叙事意图进行状态级的精确建模与可视化表达。
例如,当指令要求表现角色「从怀疑转变为恍然大悟」时,模型能够协调身体姿态、视线方向、镜头语言以及光影变化等一系列要素,呈现一个在表演逻辑上合理、情感层次分明的完整转变过程,而非简单地替换一个表情贴图。
共生进化
AI与影视创作的关系
Utopai技术路径的精妙之处在于并非简单地用AR模型替代Diffusion模型,而是形成一种规划与执行分离的协同范式。
通过构建深度理解叙事逻辑与物理规则的智能系统,Utopai的影视模型实现了人与AI的共生进化。
其「规划—渲染」的协同范式将长程一致性与叙事可控性转化为可计算、可优化的状态规划问题,为专业影视制作者提供了兼具创造性自由度与工业化可控性的全新解决方案。
随着AI技术有望击穿传统制作的成本与效率壁垒,电影与高端视听内容的未来,正从「预算的暴政」转向「想象力的自由」。
对于正值黄金时代的韩流内容产业而言,Utopai带来的不仅仅是一项降本增效的工具,更是一台推动其创意潜能无限释放、迈向全球主流市场的强大引擎。
那些曾因制作成本与周期限制而被搁置的宏大创意,特别是融合了K-POP、webtoon等独特文化基因的创新IP,正迎来被全球观众看见的曙光。
参考资料:
https://www.utopaistudios.com/