港大开源ViMax火了，实现AI自编自导自演_知识

港大开源ViMax火了，实现AI自编自导自演

创始人

2025-12-12 20:47:02

想象一下，只需要一句话描述，AI 就能为你拍出一部完整的短剧？以后可能真的人人都能当导演了。不用学复杂的拍摄技巧，不用买昂贵设备，甚至不用找演员。有个好想法，AI 就能帮你实现。

为了让这个想法变成现实，香港大学黄超教授团队开源了 ViMax 框架，并在 GitHub 获得 1.4k + 星标，专注于 Agentic Video Generation 的前沿探索。通过多智能体协作，ViMax 实现了真正的 "自编自导自演"—— 从创意构思到成片输出的完整自动化，把传统影视制作的每个环节都搬进了 AI 世界。

ViMax 的 "一人剧组" 有多强？它就像一个数字化的全能团队 ——AI 编剧负责写剧本，AI 导演掌控节奏和镜头语言，AI 摄像师负责构图和视觉呈现，AI 剪辑师精心打磨每个细节。这些 AI 小伙伴会自己讨论创意，分配任务，协调配合。你只需要输入一个想法，AI 就能独立完成整个制作流程，输出千赞级别的视频内容。

在 AI 视频制作领域，我们正在见证一场从 "片段生成" 到 "系统化制作" 的重要转变。这不仅仅是技术升级，更是创作方式的根本改变。

实验室地址：https://sites.google.com/view/chaoh
开源地址：https://github.com/HKUDS/ViMax

长视频生成：核心技术挑战

当前主流的文本到视频模型，如 Sora、Runway 等，虽然在短片段生成上表现亮眼，但面对真正的长视频制作时，却遭遇了两个核心瓶颈：

1. 叙事规划的复杂度爆炸

长视频制作需要统筹数百个镜头的叙事逻辑，涉及角色发展、情节推进和主题呼应等多个维度。这种多层次的故事架构已经超出了当前语言模型的单轮处理极限。关键挑战在于：如何将庞大的故事脉络拆解成可操作的规划模块，同时确保整体叙事的逻辑自洽和情感连贯。

2. 跨镜头视觉连贯性难题

现有生成模型各自为战，缺乏对前序内容的记忆能力，这导致角色形象、场景风格、空间布局在不同镜头间频繁 "变脸"。这种视觉记忆缺失在长视频中会产生雪球效应，严重影响观众的沉浸感和故事可信度。

如何突破这两大技术瓶颈，成为 AIGC 中长视频亟待解决的关键问题。

端到端多智能体协同架构

ViMax 采用分层协作的设计思路，将长视频制作分解为五个相互协调的阶段，每个阶段由专门的智能体负责：

阶段 1：剧本创作（Screenwriting）

无论用户输入的是简单的一句话想法、完整小说还是剧本片段，编剧智能体都能将其重新组织为标准化的影视剧本，包括场景设定、角色台词和故事节奏安排。

阶段 2：分镜规划（Shot Planning）

分镜智能体运用专业电影制作理论，为每个剧本场景设计精确的镜头语言 —— 从摄像机位置、运动轨迹，到光影布局、角色调度，再到每个镜头的时间把控，形成完整的拍摄蓝图。

阶段 3：视觉资产生成（Visual Asset Creation）

制作智能体采用 "先图后视频" 的两步生成策略：首先创建核心视觉元素（角色造型、场景设计、关键画面），然后以此为基础生成对应的动态视频片段，确保视觉风格的精准控制。

阶段 4：质量把控（Quality Assessment）

对于每个生成任务，系统会同时产出多个版本，由质检智能体运用视觉语言模型进行专业评估，筛选出最符合分镜要求的版本。若所有候选都未达标，系统将自动调优参数并重新生成。

阶段 5：统筹协调

导演智能体担任总指挥，监控全流程的协调运转，维护各阶段输出的风格统一，并负责智能体间的任务分配与信息同步。

从叙事到镜头：三层递归规划体系

递归式叙事分解策略

ViMax 采用递归分解机制来驯服长视频叙事规划的复杂性挑战。系统将完整剧本按照叙事逻辑分解为三个层次化管理单元：

事件层（Events）：捕获核心叙事节点，如故事起始、情感转折、结局收束等关键剧情锚点，构建整体故事骨架。
场景层（Scenes）：将抽象事件具象化为可执行的戏剧单元，如 "雨夜咖啡厅的告别对话" 或 "办公室里的紧张对峙"，明确时空背景和情境设定。
镜头层（Shots）：为每个场景输出精确的执行指令，涵盖镜头语言（特写、全景、移动轨迹）、演员调度、光影氛围等具体制作参数。

这种分层递归策略确保语言模型在每个认知层次都面对适度的规划范围，既避免了整体叙事处理的认知瓶颈，又通过层次间的依赖传递维持了故事内在的逻辑连贯性和情感节奏。

RAG 增强的全局上下文同步

分层分解虽然有效控制了复杂度，但也带来了上下文碎片化的风险 —— 原始素材中的丰富背景信息可能在层次切分中丢失。ViMax 通过集成检索增强生成（RAG）系统来应对这一挑战：

建立全局知识库：系统首先对原始剧本或小说进行深度解析，构建包含角色关系、情节脉络、主题元素的综合索引库。
动态上下文检索：在每个分解阶段，系统根据当前生成的文本描述，智能检索相关的全局背景信息，包括前文伏笔、角色设定、情感基调等关键要素。
上下文融合生成：将检索到的全局信息与当前层次的局部规划需求相融合，生成既满足具体制作要求又保持整体故事逻辑的详细描述。

这种 RAG 机制确保每个局部规划决策都能 "看见" 更大的故事图景，有效避免了角色性格突变、情节逻辑矛盾、主题偏离等常见问题，让 AI 在处理复杂叙事时既见树木，又见森林。

图网络驱动的视觉一致性方案

基于图结构的视觉元素追踪机制

为解决跨镜头视觉一致性难题，ViMax 设计了基于依赖关系的智能生成框架。系统在规划阶段对所有镜头描述进行深度解析，自动识别共享视觉元素 —— 包括角色身份、场景环境、道具物件等关键要素，并构建反映这些元素间依赖关系的有向图结构。

在生成执行阶段，系统对依赖图进行拓扑排序优化：无依赖关系的独立镜头可实现并行批量生成，而存在依赖关系的镜头则启用条件引导生成模式 —— 以先前生成的视觉内容为参考基准，而非单纯依赖文本描述进行从零生成。

这种图网络驱动的方案在确保视觉连贯性的同时，通过智能并行化处理显著提升了整体生成效率。

过渡视频的空间几何约束机制

针对同一场景内的多视角拍摄需求，ViMax 引入了过渡视频生成技术来维护空间几何的严格一致性。当多个镜头需要从不同角度展现同一物理空间时，保持准确的空间关系对避免 3D 布局冲突至关重要。

系统首先识别需要空间连贯性约束的场景组合，然后生成连接不同视角的流畅摄像机运动轨迹。这些过渡视频充当空间校准锚点，确保场景内所有视角都遵循统一的 3D 几何约束。

例如，在生成两角色对话的正反打镜头时，系统会先创建一个从角色 A 视角平滑过渡到角色 B 视角的连续运动视频，以此为几何基准生成两个独立的对话镜头，从而保证空间位置关系的完美契合。

多智能体协同的专业化分工

ViMax 的核心智能体角色

导演智能体（Director Agent）：担任全流程总指挥，统筹任务调度、进度监控和品质审核，确保各环节协调配合和整体输出标准。
编剧智能体（Screenwriter Agent）：专门处理各种形式的输入内容，将用户的创意想法转化为标准化、结构完整的剧本格式。
分镜智能体（Shot Planning Agent）：具备深度的影视语言专业知识，运用镜头美学、叙事节奏和视觉表达理论，为每个剧本段落设计精确的视听呈现策略。
视频生成智能体（Video Generation Agent）：执行核心创作任务，从角色造型设计、场景环境构建到动态视频合成，负责将抽象描述转化为具体视觉内容。
质量控制智能体（Quality Control Agent）：基于先进视觉语言模型的多维度评估体系，对生成内容进行严格的质量检验和智能化迭代引导。

VLM 驱动的迭代质量优化机制

系统采用多候选并行生成策略，为每个创作任务同时产出多个版本，随后通过视觉语言模型进行综合评估。评估体系涵盖视觉真实感、叙事逻辑连贯性、分镜技术规格执行度等关键质量指标。

当所有候选版本均未达到预设质量阈值时，系统启动智能迭代机制：基于 VLM 提供的详细反馈信息，自动调优生成参数配置，并重新执行生成过程，直至输出符合标准的高质量内容。

这种闭环质量控制机制确保每个制作环节都能输出专业级别的成果，为最终的完整视频奠定坚实基础。

技术展望与未来方向

ViMax 标志着 AI 视频生成从 "碎片化拼接" 向 "体系化创作" 的重要跃迁，但仍有不少提升空间：

计算效率提升：目前系统需要频繁调用外部 API，后续可通过模型集成或蒸馏技术来降低计算开销，提高响应速度。
交互编辑功能：支持用户在制作过程中随时介入调整，比如修改某个镜头设计或调整剧情节奏，让创作更灵活。
多元文化支持：扩展对不同地区叙事风格和视觉传统的理解，让系统能创作出更有地域特色的内容。
音频制作整合：补齐音效、配乐、对白等音频环节，形成完整的影视制作流程。

从技术发展角度看，ViMax 的核心价值在于找到了一种将专业制作经验转化为系统化流程的方法。这种思路不仅适用于视频制作，对其他需要多环节协作的复杂创作任务也有借鉴意义。随着技术成熟，我们有理由期待看到更多专业创作工具的自动化突破。

上一篇：原创中方还在克制，俄罗斯已经不想忍了：不会坐视日本出现新型杀伤性武器！

下一篇：中科创达：未参与谷歌AI眼镜合作

港大开源ViMax火了，实现AI自编自导自演

相关内容

热门资讯