炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:量子位)
鲨疯了!一周连发六款模型。
火力全开的昆仑万维(维权),正在把多模态AI卷到新高度。
8月11日~15日,这家公司天天都有新模型掉落,覆盖的还都是视频生成、世界模型、统一多模态、智能体以及AI音乐创作这些大热门,几乎每一个都是多模态AI应用的核心场景。
用表格总结一下be like:
而且这当中的绝大部分模型还被昆仑万维给开!源!了!
u1s1,不怪网友们天天在昆仑万维官方评论区等待惊喜掉落(doge):
而且就在技术周开幕前,昆仑万维还成功入选“中国AI开源16强”,与腾讯、阿里等互联网大厂坐上了同一桌。
所以说,这个技术周的节点也显得格外耐人寻味——
表面上是一场高调的技术“肌肉秀”,但细究之下,背后其实藏着昆仑万维的一盘AI大棋。
还是先来康康过去一周都发了啥(按发布顺序展开)。
SkyReels-A3:一张图开口带货so easy!
一上来,昆仑万维就甩出了核心瞄准数字人直播带货的SkyReels-A3模型。(毕竟目前光国内直播市场就已经逼近十万亿量级)
玩法呢主要有三种:
从官方demo来看,今后恐怕很难分清每天都在看的视频是真人出镜还是数字人了——其手部动作、说话的语气和节奏、口型等都非常自然。
除了带货能力强悍,这个模型还有意增加了“镜头语言”——官方预设8种常见运镜参数,包括固定镜头、推镜、拉镜、左摇、右摇、抬升、下降和手持镜头。
这样一来,它也能轻松应对那些对艺术美感要求更高的场景(如音乐MV、电影片段或演讲视频),不像传统数字人只能“固定镜头”,画面略显呆板无趣。
瞅瞅下面这个由AI制作的MV,是不是氛围感一下子拉满了:
而且不止明面上效果OK,官方测评显示,在不同的音频驱动场景下,SkyReels-A3在大多数指标上均超越了主流的开源模型OmniAvatar和闭源模型OmniHuman等方法。
尤其在唇形同步(Sync-C和Sync-D)方面,SkyReels-A3明显表现更佳。
这里也不得不提到SkyReels-A3背后所采用的核心技术原理:
DiT视频扩散模型就不用多说了,由于用Transformer结构替代了传统的U-Net,它能更好地捕捉长距离依赖关系。
这当中重点看一下所谓的“用插帧模型进行视频延展”:
基于上述技术方案,SkyReels-A3相比之前的SkyReels-V1(今年2月发布)、SkyReels-V2(今年4月发布),为用户带来了四个方向上的新体验:
①Text Prompt(文本提示词输入)支持画面变化;
②更自然的动作交互,包括和商品的交互、说话时的手部动作等;
③运镜的运用和控制更高级,让艺术场景如音乐/MV等拥有更高的艺术美感;
④可以生成单分镜分钟级别视频,支持长达60秒的输出,多分镜可以支持无限时长。
一言以蔽之,SkyReels-A3在“让数字人开口说话”这件事上已经把门槛狠狠打下来了——
国产开源Genie 3,黑客帝国照进现实
当然了,眼前火的要抓,未来可能火的前沿课题昆仑万维也不放过。
发布第二日,他们就带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版——Matrix-Game 2.0。
早在一周多前,谷歌DeepMind就因推出Genie 3而让世界模型再次备受关注,但遗憾的是Genie 3并没有开源,如今昆仑万维却做到了开源。
据了解,其Matrix-Game-Turbo是国内首家对标Genie 3的模型,而且这一次的2.0版本在实时生成和长序列能力上有了质的飞跃。
像下面这个以第一视角走遍游戏场景的例子,以前大多只能生成十几二十秒(包括7个月前的Genie2),而现在直接分钟级起步,并且还能做到实时前后左右交互。
具体而言,相比上一版本,Matrix-Game 2.0拥有三大核心优势:
而为了实现这些升级,昆仑万维主要从数据和架构两方面对Matrix-Game 2.0进行了优化。
第一,为了应对现有交互式世界模型普遍面临的数据瓶颈。他们为模型构建了基于Unreal Engine和GTA 5的可扩展数据生产管线,生产约1350小时高质量交互式视频数据,提供丰富动作覆盖。
第二,针对实时性不足的痛点,他们在1.3B小模型基础上设计了动作条件控制模块,支持帧级键盘与鼠标交互输入。
第三,面对生成序列较短的挑战,他们采用少步长自回归扩散模型实现实时长序列视频生成,在单个GPU上可达25 FPS的生成速度。
与此同时,昆仑万维也在同一天发布并开源了3D场景生成大模型——Matrix-3D。
作为一个融合全景视频生成与三维重建的统一框架,它从单图像出发,能够生成高质量、轨迹一致的全景视频,并能直接还原可漫游的三维空间。对标李飞飞World Labs的生成效果,还能实现更大范围的探索空间。
p.s.量子位另有一篇文章对昆仑万维Matrix-3D进行了详细介绍~
结合以上两种模型,昆仑万维可以说成功打破了世界模型在内容生成与交互之间的壁垒。
这也意味着,他们已经为游戏引擎、元宇宙、具身智能、自动驾驶等多个领域构建起了强有力的技术基座。
用上新框架,生图/编辑统统SOTA
进入第三天,昆仑万维盯上了今年颇火的统一多模态——
正式开源Skywork UniPic 2.0模型,作为面向统一多模态建模的高效训练和推理框架,能够实现一个模型搞定图像理解、生成以及编辑。
过去业界为了实现这一目标,通常信奉“大力出奇迹”那一套,想让模型更强,就加参数、加显卡、加算力。
但昆仑万维用新框架证明,优化训练策略可以替代单纯的模型扩张,从而降低高性能图像生成/编辑模型的训练成本和硬件门槛。
具体来说,通过改进SD3.5-Medium架构以及应用“独门秘笈”(渐进式双任务强化策略),最终使一个仅2B大小的模型在图像生成和编辑性能上超越了BAGEL(7B)和Flux-Kontext(12B),成功“以小博大”。
紧接着,当把这个2B模型与Qwen2.5-VL-7B联合训练之后,所得到的统一多模态模型UniPic2-Metaquery直接刷新了理解、生成、编辑等多项任务的SOTA纪录。
总而言之,Skywork UniPic 2.0的出现代表了统一多模态领域的一种全新训练范式。
天工超级智能体核心引擎又又又升级了
至此,昆仑万维前三天的发布可谓样样火热,但这还没完。
今年火到不能再火的Agent,这就接着上桌——
正式发布Skywork Deep Research Agent v2,作为天工超级智能体的核心引擎,它为平台用户产出了大量信息密度极高的优质文档、PPT、表格以及其他交付物。
这次的升级也主要体现在多模态上,具体有三点:
①推出“多模态深度调研”Agent,首次整合多模态检索、理解和生成。
②推出“多模态深度浏览器智能体”,重塑社媒内容分析与数据洞察。
③加强深度信息搜索和复杂任务执行能力,在多个任务测评集上取得SOTA。
先来看一个用“多模态深度调研”Agent搞研究的例子(该功能已全面上线天工平台)。
亮点1:智能体在检索信息的过程中,会自动浏览并分析理解重要的图片(以前依赖于纯文本)。
亮点2:在对图片做了收集和理解之后,智能体在生成文档时,会在合适位置插入高质量图片,直接传达信息,降低读者理解难度。
亮点3:智能体也可能对图片信息进行整合加工,以流畅的方式变成文字或者新的图表。
另一个“多模态深度浏览器智能体”目前仍处于内测和邀测阶段,官方计划不久之后全面开放。
和之前的浏览器相比,它也不再局限于文本,而是能够深入分析社交媒体(尤其是小红书、推特以及Instagram等平台)的图片、视频等内容。
现在,吃瓜和追星的姿态已经大变样了~
从技术角度而言,新版本Skywork Deep Research的成功主要靠以下核心手段:
(1)高质量数据合成及训练
提出端到端深度信息问题合成流程,明确高质量搜索问题的五大标准(多样性、正确性、唯一性、可验证性、挑战性),并通过“种子实体筛选—端到端问题构造—迭代式问题增强”三阶段方法,系统生成高难度、多步推理问题集。
(2)端到端强化学习
基于非对称验证原则构建大规模高质量训练数据,采用GRPO算法与动态课程学习机制,确保训练样本始终处于适宜难度区间;引入生成式密集奖励模型,将终点奖励细化为过程奖励,提升学习效率与鲁棒性。
(3)高效的并行推理
研发并行思考(Parallel Think)机制,在每步推理生成多个候选路径并筛选最优;引入长文本生成式结果验证与锦标赛排序,提升推理准确率与泛化能力;采用熵自适应剪枝,仅在高不确定性节点进行多路径推理,兼顾性能与计算效率。
(4)多智能体演进Agent
构建MCP Manager Agent,实现工具的生成—验证—持久化—复用闭环管理;通过协同多智能体框架,将不同Agent模型能力与MCP工具能力深度融合,并支持动态创建与管理工具,显著增强任务处理能力与环境适应性。
更懂中文歌曲的音乐模型
几个大热方向逐一突破后,最后一天,昆仑万维来了一波强势回归——音乐模型。
正式上线Mureka V7.5模型,使中文歌曲演绎再上新台阶:
前者通过深入理解中文音乐的多样性和文化特性,模型能更精准地传达中文音乐的艺术神韵和情感;后者通过优化的ASR技术提升了人声的真实性和情感深度,使AI演唱更自然,尤其在中文歌曲的韵律和气息处理上效果显著。
话不多说,直接来看它和国外顶尖音乐生成模型Suno v4.5(Suno最新版)的对比:
仅从提示词(摇滚、雨、爱与自由)来听,Mureka V7.5明显更具摇滚味儿,更符合提示词。
此外,更多测评结果表明,不论是音乐性还是文本控制准确性,Mureka V7.5均领先同类音乐模型。
同一时间,昆仑万维语音团队还推出了首个基于MoE的角色描述语音合成框架——MoE-TTS。
作为面向开放描述(Out-of-domain Descriptions)场景的全新框架,它能让用户通过自然语言描述(例如“清澈的少年音带磁性尾韵”)精准控制声音特征与风格。
在仅使用开源数据的条件下,对标甚至超越闭源商业产品的角色贴合度表现。
下图显示,在涵盖域内与域外描述的双测试集上,MoE-TTS与主流闭源TTS模型相比,在风格表现力贴合度(SEA)和整体贴合度(OA)等声学控制上精准度领先,这也正是其在复杂描述匹配度上胜出的关键。
至此小结一下昆仑万维技术周,不难发现这样几个特征:
①多模态能力全面拉满:从文本到语音/视频/图像等,各项技术都在往多模态方向延伸。②垂直领域深耕:面对高频应用场景,模型一再快速刷新各领域SOTA。③开源驱动生态:多款SOTA模型开放权重与代码,推动行业迭代。
结合昆仑万维在AI方面的布局,不得不说如今的成就并非偶然,而是其精心布局与持续投入的必然结果。
那么,这背后究竟是一盘怎样的大棋呢?梳理下来核心在于三方面。
首先是战略定力。
早在ChatGPT卷起这轮AI浪潮的2023年初,昆仑万维就从顶层设计上率先确立了“All in AGI与AIGC”的战略。
这一前瞻性的战略决策,不仅体现了公司对AI未来发展的深刻洞察,也为昆仑万维在AI领域持续深耕奠定了坚实基础。
受此战略指引,过去三年他们在视觉多模态、深度学习、强化学习等核心技术领域持续投入,在AI上倾注了实打实的人力、物力、财力。
这一点可以通过昆仑万维2024以及2025年一季度财报体现:
如此重押之下,昆仑万维也先后推出了多项重磅产品与平台——包括天工超级智能体(Skywork Super Agents)、AI音乐创作平台Mureka、AI短剧平台SkyReels、AI社交产品Linky等,形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的全栈式AI产业链。
当然,这些产品的选择,实际上也揭示了昆仑万维的另一个关键策略:
技术上全面开花,应用上却狠狠瞄准垂直领域。
在WAIC 2025大会上,昆仑万维董事长兼CEO方汉提出了一个与众不同的观点。在行业普遍追逐“超级应用”和通用Agent的热潮中,他认为通用Agent在逻辑上不成立,垂直领域的深度优化才是未来。
而且从全球大模型调用数据来看,他认为只有那些能够融入用户日常工作流、被高频使用的应用,才能产生巨大的商业价值和用户粘性。
这些都为昆仑万维的AI应用落地指明了方向——垂直领域+高频应用场景。
△图源:昆仑万维公众号当完成从技术→应用落地的关键一环后,昆仑万维最后用开源补齐了整个链条。相比一些同行选择闭源,昆仑万维在多个关键节点坚持开源,持续贡献高质量模型和工具。
在业内,这不仅帮助公司建立起技术话语权,也在吸引更多开发者、合作伙伴加入,从而形成“技术—社区—应用”的正向循环。事实也证明,该公司已经凭借开源成果入选“中国AI开源16强”,生态地位正在稳步提升。
综上所述,能够看到的是,昆仑万维正在加速推进其AI战略,并展现出强大的技术实力和商业潜力。作为国内AI企业第一梯队成员,其后续发展无疑值得资本关注。
可以说,技术周的落幕并非终点,而是昆仑万维AI征程新的起点。