美团开源虚拟人视频生成模型 LongCat-Video-Avatar
创始人
2025-12-18 20:45:27

DoNews12月18日消息,据“龙猫 LongCat”公众号推文,美团 LongCat 团队正式发布并开源 SOTA 级虚拟人视频生成模型 ——LongCat-Video-Avatar。

该模型基于 LongCat-Video 基座打造,延续“一个模型支持多任务”的核心设计,原生支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的突破。

据介绍,该模型具备如下技术亮点。

“告别僵硬,迎接鲜活”:不仅能指挥嘴型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。

连“不说话”的时候,都很像人:美团通过 Disentangled Unconditional Guidance(解耦无条件引导)训练方法,让模型明白了“静音”不等于“死机”。在说话的间歇,虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀。

据介绍,LongCat-Video-Avatar 因此成为首个同时支持文字、图片、视频三种生成模式的“全能选手”,虚拟人从此有了“真正的生命力”。

在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等权威公开数据集上的定量评测表明,LongCat-Video-Avatar 在多项核心指标上达到 SOTA 领先水平。

相关内容

热门资讯

活力中国调研行|雁栖湖畔,大国... 本文转自【新华社】;夏日的北京雁栖湖畔,群山叠翠,一座银灰色的巨型环形装置静卧于此。从空中俯瞰,形似...
【ETF市场周报】选对赛道仍不... 【掘金回顾】近一周A股市场宽幅震荡,呈现显著的板块分化特征,科技类ETF展现出极强的单日弹性,而周期...
基金业“抢人大战”升级 当人工智能浪潮席卷金融行业各个角落,基金公司的人才争夺战也在悄然升级。近日,易方达基金等头部公募基金...
在香港感受文化遗产之美 (来源:经济日报)转自:经济日报13日上午,香港故宫文化博物馆的玻璃幕墙外,维港的粼粼波光与港岛的摩...
微软纳德拉:AGI非终点,无脑...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:三言科技)据...