(来源:华为计算)
近年来,多模态理解模型和图像生成模型分别在自回归架构和扩散模型的基础上取得了显著进展,能够统一处理多模态理解和生成任务的框架逐渐成为研究热点。在2025年世界人工智能大会(WAIC)上,上海人工智能实验室联合华为昇腾推出了新一代多模态生成与理解统一模型Lumina-DiMOO,支持文本生成图像/视频、图像编辑、图像翻译、图像复原等多种任务。该模型是首个基于昇腾AI基础软硬件平台与MindSpeed MM多模态大模型套件实现全流程高效训练的多模态生成理解统一模型,MindSpeed MM凭借其高度集成的工具链和分布式优化策略,大大简化了模型的开发与部署流程,不仅展现了出色的训练性能,也具备良好的开发易用性,为多模态生成理解统一模型的研发提供了强有力的支撑。
Lumina-DiMOO介绍
“书生·若明”(Intern·Lumina)是上海人工智能实验室打造的标杆性多模态生成模型体系,覆盖文本、图像、视频、语音、科学数据与结构化数据等多种模态。该体系旨在构建通用、高效、可信的一体化多模态智能系统,其此前已取得多项突破性进展:
Lumina-Image 2.0:构建了基于文本、视觉信息联合自注意力机制的Unified Next DiT架构,在多个公开基准测试集(DPG、T2I-CompBench)上达到开源领域TOP1水平,并在用户评估平台(Artificial Analysis、Rapidata)上达到国际领先水平,与Flux、DALLE3、Imagen3等商业级模型比肩,展现出卓越的图文生成能力。
Lumina-mGPT 2.0:基于自回归架构的新一代多模态生成模型,具备强大的跨模态生成能力,支持高质量的文本到图像生成、多种图像编辑功能、物体驱动生成以及可控生成。
在2025年世界人工智能大会(WAIC)上,上海人工智能实验室联合华为昇腾团队带来了“书生·若明”体系中的的最新力作——Lumina-DiMOO多模态生成与理解统一模型。该模型基于昇腾Atlas 800T A2训练服务器和MindSpeed MM多模态大模型套件,完成了256分辨率/512分辨率/1024分辨率的预训练和1024分辨率的监督微调。作为继Lumina-Image 2.0和Lumina-mGPT 2.0之后的又一里程碑式创新,Lumina-DiMOO在多模态生成领域实现了效果与效率的全面飞跃。
Lumina-DiMOO由上海人工智能实验室前沿探索中心多模态前沿团队主持开发,该团队致力于研究多模态生成模型及其应用,并探索下一代多模态基础模型架构。该模型的核心亮点在于其架构层面的革新——全面引入了前沿的离散扩散架构(Discrete Diffusion Model),彻底替代了传统的扩散与自回归框架。这一技术革新构建了更高效、更可控的生成机制,为多模态内容创作带来了革命性的提速。Lumina-DiMOO的采样速度相比前代自回归架构实现了约10倍的惊人提升!这意味着用户能够以前所未有的速度获得高质量的生成结果,大幅提高了推理效率与响应速度,让创意真正“即想即得”。
除了在速度上实现突破,Lumina-DiMOO的跨模态生成与理解能力也达到了新的高度。它不仅仅支持高质量的文本生成图像,还支持图像编辑、主题驱动生成、风格控制、精细化可控生成等。这些能力的全面提升,极大拓展了Lumina-DiMOO在真实世界应用场景中的灵活性与泛化能力。
通过构建统一的多模态语义空间与条件建模机制,Lumina-DiMOO打通了“内容生成”与“语义理解”之间的壁垒。这意味着模型不仅能创造内容,更能“理解和感知”其所创造的内容,为构建具备认知能力、可交互、多任务协同的通用多模态大模型奠定了坚实基础。
基于MindSpeed MM的Lumina-DiMOO全方位任务体验
文生图:
条件生成:
图像编辑:
图像密集预测:
昇腾MindSpeed MM——为开发者带来友好高效的多模态模型开发体验
当前多模态生成与理解统一模型在架构上呈现出多样化的发展趋势,包括基于扩散的方法、基于自回归的方法以及基于二者融合的方法等。方案和组件的多样性导致了目前此类模型没有成熟的训练方案。昇腾MindSpeed MM不仅集成了完善的配置管理和断点续训等机制,而且兼容了目前主流的分布式训练策略,为开发者提供了友好高效的多模态模型开发体验。
开发者的使用体验更加友好
MindSpeed MM兼容了FSDP(Full Sharded Data Parallel)以及Megatron中的TP(张量并行)、PP(流水线并行)和CP(上下文并行)等主流分布式训练策略,具备良好的扩展性与灵活性。Lumina-DiMOO 选用FSDP中的混合分片模式作为参数切分方案,该方式不仅支持模型在多节点上高效扩展,而且无需大幅修改代码,模型与算法层面几乎无需感知底层切分逻辑,让算法开发者能够更加专注于模型设计与创新本身。
高性能融合算子:提升训练性能和稳定性
训练中,采用npu_fusion_attention融合算子,计算性能优化5%,采用RoPE融合算子,计算性能优化4%,采用RMSNorm融合算子,计算性能优化7.6%。此外,总计显存占用减少27.7%,得以采用更大的微批次大小,在保证训练稳定性的同时,使FSDP中的通信操作尽可能被计算操作掩盖,从而有效提升计算资源的利用率和整体训练吞吐。
开源预告
Lumina-DiMOO的全流程训练代码将于近日在MindSpeed MM开源,敬请期待!
MindSpeed-MM是昇腾AI面向大模型分布式训练提供的多模态大模型套件,提供了丰富的数据工程能力及分布式并行能力,预置图像生成、视频生成、图文理解等多模态大模型及任务,支持开箱即用及灵活组装开发,欢迎加入和体验:https://gitee.com/ascend/MindSpeed-MM
上海人工智能实验室简介
上海人工智能实验室是我国人工智能领域的新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展。目标是建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。