快手可灵3.0系列AI模型发布并内测,视频生成能力升级
创始人
2026-01-31 14:19:15

IT之家 1 月 31 日消息,快手今日宣布推出新一代视频生成模型可灵 3.0 系列,目前处于超前内测阶段。该系列包含图片 3.0、视频 3.0 和视频 3.0 Omni,在原有模型基础上进行了技术升级。

其中,图片 3.0 模型主要升级包括四项功能:

  • 新增组图生成能力,支持通过单张或多张输入图像批量生成逻辑连贯的系列画面;
  • 输出分辨率提升至 2K 与 4K 级别,适配影视预演图、场景设定等专业需求;
  • 增强画面细节一致性,优化纹理、光影的呈现效果以降低“AI 感”;
  • 强化对构图、视角等元素的控制精度,提升影视类创作场景的适用性。

据介绍,此次升级采用视觉思维链(vCoT)技术辅助生成前的场景解构推理,并通过 Deep-Stack 视觉信息流机制增强细粒度感知能力。模型训练过程中引入强化学习框架,结合真实感与电影质感双重评估标准优化输出效果。

另外,新的视频模型采用统一的多模态训练框架,支持文本、图像、视频片段等多种输入形式,单次视频生成时长最高可达 15 秒,并支持 3-15 秒灵活时长设置。功能改进主要包括:

  • 新增智能分镜系统,可根据文本指令自动调度景别与机位;
  • 增强主体一致性控制,允许通过多图或视频锚定特定视觉元素;
  • 升级音画同步能力,支持中、英、日、韩、西五种语言及方言的精准口型匹配,并实现多人场景下的角色定向发声;
  • 提升文字生成清晰度,确保招牌、字幕等文字信息可辨识。

视频 3.0 Omni 版本额外支持创建视频主体特征库,可提取 3-8 秒视频中的角色形象与音色进行还原应用。技术文档显示,此次升级涉及多模态指令解析架构优化、音频采样区间调整及特征解耦重组方案。

相关内容

热门资讯

新华社权威快报|国产自研600...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:新华社)  ...
针对山西煤矿瓦斯爆炸事故,国务... 针对山西通洲集团留神峪煤矿瓦斯爆炸事故,国务院事故调查组将较真碰硬开展事故调查,查清查透事故原因,查...
面临通胀挑战 沃什宣誓就任美联... (来源:经济日报)转自:经济日报凯文·沃什22日在美国白宫举行的仪式上宣誓就任美国联邦储备委员会主席...
东西问|张永攀、叶梓溦:西藏和... 中新社北京5月23日电 题:西藏和平解放如何重塑中国西南边疆?作者 张永攀 中国社会科学院中国边疆研...
这个家伙胆子真大,自称参加过“... 来源:央广军事 参加过“境外维和”“边境缉毒”任务还入选“大阅兵”……经历如此传奇的“特种兵王”却是...