美团首个视频大模型开源！速度暴涨900%_知识

美团首个视频大模型开源！速度暴涨900%

创始人

2025-10-27 16:15:23

智东西

作者 | 陈骏达

编辑 | 心缘

智东西10月27日报道，10月25日，美团开源了其首款视频生成大模型——LongCat-Video。该模型面向多任务视频生成场景，旨在以统一架构支持文生视频、图生视频以及视频续写三种能力。

不同于以往针对单一任务训练的模型，LongCat-Video通过多任务联合训练机制，在同一框架内即可处理零帧、单帧及多帧条件输入。

此外，LongCat-Video重点突破了长视频生成难题。相比常见模型在长时序生成中易出现的画面漂移、色彩偏移等问题，该模型通过在视频续写任务上的原生预训练，能够持续生成数分钟视频内容，同时保持较高的时间一致性与视觉稳定性。

在推理效率方面，LongCat-Video借鉴了近年来的高效生成方法，采用“粗到细”两阶段生成策略：先生成480p、15fps的视频，再细化至720p、30fps，并结合块稀疏注意力机制和模型蒸馏，显著降低了高分辨率生成的计算开销，视频生成的推理速度提升到原来的10.1倍，提速幅度超900%。

在后训练阶段，团队引入多奖励强化学习（RLHF）优化方案，利用组相对策略优化（GRPO）方法综合多维度奖励信号，进一步提升模型在多样化任务下的表现。

美团已在多项公开与内部测评中将LongCat-Video与其他视频生成大模型进行了比较。在VBench公开基准测试中，LongCat-Video总得分仅次于Veo3和Vidu Q1。值得注意的是，LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一，也超过了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等闭源模型。

目前，美团LongCat-Video已同步开放代码、模型权重及关键模块，模型技术报告也已经发布。

项目主页：

https://meituan-longcat.github.io/LongCat-Video/

模型地址：

https://huggingface.co/meituan-longcat/LongCat-Video

技术报告：

https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf

一、三步走打造高质量训练数据，整体压缩率高达4×16×16倍

美团认为，“世界模型”（World Model）已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统，世界模型赋予AI“看见”世界运行本质的能力。

而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识，AI得以在数字空间中模拟、推演乃至预演真实世界的运行。

为打造LongCat-Video，美团LongCat团队首先在数据层面构建了一套数据处理与标注体系。

首先在数据预处理阶段，通过多源视频采集、去重、镜头切分及黑边裁剪，确保视频片段质量与多样性。

随后在数据标注阶段，为视频添加时长、分辨率、美学分数、动态信息等多维度属性，并建立元数据数据库以支持灵活数据筛选。团队还基于LLaVA-Video与Qwen2.5VL等模型进行视频内容、镜头语言及视觉风格标注，并通过中英双语翻译与摘要生成实现文本增强。

最终，通过文本嵌入聚类对视频内容进行无监督分类与均衡优化，为模型训练提供高质量、多样化的视频数据基础。

在模型架构层面，LongCat-Video采用了基于Diffusion Transformer（扩散Transformer）的单流三维结构，这一设计融合了扩散模型的生成能力与Transformer的长时序建模优势。

每个Transformer模块都包含三维自注意力层、跨模态注意力层以及带SwiGLU激活的前馈网络，并通过RMSNorm与QKNorm保证训练稳定性。

模型使用了3D RoPE位置编码来捕捉时间与空间的信息关系，同时引入AdaLN-Zero机制以提升任务间的调制能力。

在输入数据层面，美团团队借助WAN2.1模型的VAE将视频像素压缩成潜空间token，使视频数据能以更紧凑的形式参与建模，整体压缩率高达4×16×16倍；文本输入则由umT5多语言编码器处理，支持中英文双语，进一步提升了模型的通用性。

二、靠“统一任务框架”一次训出三种能力，稀疏注意力让推理效率猛增超900%

LongCat-Video采用了三阶段的训练流程。模型以Flow Matching框架取代传统扩散过程，通过预测噪声到真实视频潜变量的速度场提升训练稳定性与效率。

训练采用渐进式预训练策略，从低分辨率图像到高分辨率多任务视频逐步学习，实现“从静态到动态”的能力积累，并结合尺寸桶机制优化算力利用。

随后在监督微调阶段，模型利用高质量、多样化数据集进行精调，强化视觉美学、运动流畅度与指令理解。

最后通过基于组相对策略优化的强化学习引入人类偏好优化，进一步提升语义一致性与视频质量。

在训练LongCat-Video的过程中，美团LongCat团队在任务设计上进行了创新，这也是LongCat-Video能在单一模型内统一文生视频、图生视频和续写视频三类任务的原因。

美团LongCat团队没有为不同的视频生成任务单独设计模型，而是通过“统一任务框架”让三种任务共用同一套网络。模型通过识别输入中“条件帧”的数量自动判断任务类型：当输入为零帧时执行文本生成视频，一帧时执行图像生成视频，多帧时则执行视频续写。

这种机制不仅大幅降低了模型复杂度，也让不同任务之间共享特征空间与训练经验，从而提升整体表现。

为进一步提高长视频生成的效率，模型在注意力机制上设计了可缓存的键值特征，使条件帧的表示可以在采样过程中重复使用，减少了冗余计算。这种机制尤其适合长视频生成，因为它能在保持一致性的同时显著降低计算开销。

强化学习部分是LongCat-Video提升生成质量的关键环节。美团团队基于组相对策略优化方法进行了多重改进，使其适配视频扩散任务。传统的GRPO在视频生成中容易出现奖励信号不稳定和时间归因模糊的问题，团队通过固定随机时间步、引入再加权损失函数以及最大标准差归一化机制，有效解决了这些训练瓶颈。

▲LongCat-Video采用的GRPO方法与基线的生成效果对比

在奖励模型设计上，LongCat-Video采用了三重奖励体系，分别评估视频的视觉质量、运动质量和文本一致性。视觉质量由HPSv3模型打分，衡量画面美感与细节；运动质量通过VideoAlign模型评估，确保动作自然流畅；文本一致性则检验生成视频与输入提示语的语义契合度。

这种多维度的奖励设计让模型在强化学习阶段能够平衡地提升表现，避免过度优化单一指标而导致画面僵化或运动失真。

在高效推理方面，LongCat-Video通过一系列工程创新显著提升了生成速度与分辨率。团队采用“粗到细”的生成策略，先快速生成低分辨率、低帧率的视频，再由LoRA微调的精化模块进行高清复原，最终可输出720p、30帧的成片。

与此同时，LongCat-Video引入块稀疏注意力（Block Sparse Attention）机制，仅计算最相关的10%注意力块，将计算成本降至传统方法的十分之一，几乎不损失生成质量。

这些优化使得LongCat-Video在单卡H800 GPU上几分钟内即可生成一分钟长的视频。再结合一致性模型蒸馏与分类器自由引导（CFG）蒸馏技术，采样步数从传统的50步缩减至16步，推理效率提升至原来的10倍。

▲LongCat-Video在不同设置上的推理速度对比

三、多领域测评比肩Veo3，常识理解能力突出

美团LongCat团队分享了LongCat-Video的多个生成案例。

文生视频任务中，LongCat-Video可以根据提示词准确还原不少脑洞大开的画面，下方案例还显示出其可能具备风格转绘的能力。

前段时间最火的AI视频类型——切水果，LongCat-Video也能制作，不过并没有音效，缺少了一些灵魂。

LongCat-Video原生支持输出5分钟级别的长视频，不过在长时序的任务上，还是能看到一些“穿帮镜头”。例如，下图人物跳芭蕾的过程中，其肢体在某些大幅度动作的场景中显得并不自然。

有趣的是，美团分享了LongCat-Video生成行车记录仪画面和机器人灵巧手操作画面的两个案例。此类画面或许可以作为合成数据，用于自动驾驶汽车与机器人的训练。

在内部评测体系中，美团构建了一套覆盖文本生成视频与图像生成视频两大核心任务的基准，评估维度包括文本对齐、视觉质量、运动质量与总体表现，并在图生视频任务中额外增加了图像一致性指标。

为确保评测的科学性，团队采用人工与自动双轨评估机制，其中人工评价分为绝对打分与相对偏好两种方式，所有样本均由多名标注员独立评分，最终通过加权平均得出结果。

自动评测部分则由内部训练的多模态“判官模型”完成，与人工结果的相关性高达0.92，保证了客观性。

评测结果显示，LongCat-Video在文生视频任务的四个核心指标中，视觉质量得分几乎与谷歌的Veo3持平，整体质量超越了PixVerse-V5和国内领先的开源模型Wan2.2。

在运动质量方面，LongCat-Video生成的视频动作流畅、镜头移动自然，展现出较强的物理合理性。在文本对齐度上，LongCat-Video表现略差于Veo3。

在图生视频任务中，LongCat-Video画面细节丰富、风格真实，但在图像一致性和动作连贯性上仍有改进空间。技术报告认为，模型在处理高精度参考帧时对细节的保持较为谨慎，这在视觉质量上带来加分，却略微影响了动态平滑度。

在公开评测平台VBench 2.0上，LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一，总分达到62.11%，仅次于谷歌Veo 3与生数Vidu Q1等商用闭源模型。

结语：美团探索世界模型，或与机器人、无人车业务产生协同效应

美团称，LongCat-Video是其开发世界模型的第一步。高效的长视频生成能解决世界模型中的渲染问题，使模型能够通过生成的视频内容表达其对世界的认知。

未来，美团计划在视频生成中更好地建模物理知识，集成多模态记忆，融入大语言模型（LLM）和多模态大模型（MLLM）的知识。在美团分享的演示视频中，LongCat-Video能较为准确地输出机器人操作、汽车驾驶等画面，这或许预示着这款模型，有望与美团在机器人、自动驾驶（无人车）领域的业务布局产生一定的协同效应。

上一篇：以 AI 治 AI：巨量引擎首次披露AI广告治理自研大模型，审核效率提升75%

下一篇：什么是GEO优化？AI生成式引擎优化平台推荐

美团首个视频大模型开源！速度暴涨900%

相关内容

热门资讯