阿里开源视频生成模型 Wan2.2-S2V,一张图生成电影级数字人视频
创始人
2025-08-26 22:16:06
0

IT之家 8 月 26 日消息,今日晚间,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。

据介绍,该模型单次生成的视频时长可达分钟级,大幅提升数字人直播、影视制作、AI 教育等行业的视频创作效率。

目前,Wan2.2-S2V 可驱动真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等任意画幅,上传一段音频后,模型就能让图片中的主体形象完成说话、唱歌和表演等动作。

Wan2.2-S2V 还支持文本控制,输入 Prompt 后还可对视频画面进行控制,让视频主体的运动和背景的变化更丰富。

例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字,Wan2.2-S2V 即可生成一段完整、声情并茂的钢琴演奏视频,不仅能保证人物形象和原图一致,其面部表情和嘴部动作还能与音频对齐,视频人物的手指手型、力度、速度也能完美匹配音频节奏。

据介绍,Wan2.2-S2V 采用了基于通义万相视频生成基础模型能力,融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景的音频驱动视频生成;同时引入 AdaIN 和 CrossAttention 两种控制机制,实现了更准确更动态的音频控制效果;为保障长视频生成效果,Wan2.2-S2V 通过层次化帧压缩技术,大幅降低了历史帧的 Token 数量,通过该方式将 motion frames (IT之家注:历史参考帧) 的长度从数帧拓展到 73 帧,从而实现了稳定的长视频生成效果。

在模型训练上,通义团队构建了超 60 万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。同时通过多分辨率训练、支持模型多分辨率的推理,可支持不同分辨率场景的视频生成需求,如竖屏短视频、横屏影视剧。

实测数据显示,Wan2.2-S2V 在 FID(视频质量,越低越好)、EFID(表情真实度,越低越好)、CSIM(身份一致性,越高越好)等核心指标上取得了同类模型最好的成绩。

阿里云表示,自今年 2 月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多款模型,在开源社区和三方平台的下载量已超 2000 万。

开源地址:

  • GitHub:https://github.com/Wan-Video/Wan2.2
  • 魔搭社区:https://www.modelscope.cn/models / Wan-AI / Wan2.2-S2V-14B
  • HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B

体验地址:

  • 通义万相官网:https://tongyi.aliyun.com/wanxiang / generate
  • 阿里云百炼:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215

相关内容

热门资讯

问候朋友生活的短信 问候朋友生... 1、 【购物小票里的健康杀手】小票中含有的双酚A可以通过皮肤进入人体,影响人们的生殖系统,甚至诱发心...
最新或2023(历届)给男朋友...   想念的话,说也说不完,关怀的心,永远不改变。一串真挚的祝福,一个不平凡的心意,趁着新年的到来,我...
李善长向刘伯温求情,刘伯温最后... 今天趣历史小编给大家带来刘伯温的故事,感兴趣的读者可以跟着小编一起看一看。刘伯温,足智多谋,料事如神...
最新或2023(历届)除夕春节... 1、过年好!希望新年里,领导顺着你,汽车让着你,钞票贴着你,公安护着你,房产随便你,小蜜跟着你!  ...
发给同事的日常祝福话语 同事生... 1、 冰爽啤酒碰个杯,消暑开怀就属它;荷塘夜色散个步,静心凉爽就靠它;悠悠凉风露个脸,清润舒爽全凭它...