蚂蚁集团开源 Ming-Flash-Omni 2.0_知识

创始人

2026-02-11 11:49:22

AIPress.com.cn报道

2 月 11 日，蚂蚁集团正式开源发布全模态大模型 Ming-Flash-Omni 2.0。作为 Ming-Omni 系列的最新版本，该模型在视觉语言理解、语音可控生成、图像生成与编辑等核心能力上实现系统性升级，在多项公开基准测试中达到开源领先水平，部分指标超过 Gemini 2.5 Pro。

Ming-Flash-Omni 2.0 的更新重点之一在于音频生成能力。模型支持在同一音轨中同时生成语音、环境音效与音乐，并允许用户通过自然语言指令控制音色、语速、语调、音量、情绪和方言等参数。根据官方数据，模型在推理阶段实现 3.1Hz 的推理帧率，可生成分钟级音频内容。

在视觉能力方面，模型通过引入更大规模细粒度数据和难例训练策略，提升对复杂对象和长尾类别的识别能力。图像生成与编辑功能也进行了优化，支持光影调整、场景替换、人物姿态修改等操作，并强调在复杂或动态场景中的稳定性。

架构上，Ming-Flash-Omni 2.0 基于 Ling-2.0（MoE，100B-A6B）架构训练。官方表示，该版本在更大规模数据和系统化训练优化基础上，对多模态理解与生成能力进行了统一整合。

近年来，多模态大模型逐步向统一架构方向发展，但在实际应用中，模型往往难以同时兼顾通用性与单项能力表现。蚂蚁方面表示，Ming-Omni 系列经过多代迭代，从构建统一多模态能力底座，到扩大规模与训练优化，再到 2.0 版本强化单项能力表现，逐步提升综合性能。

百灵模型负责人周俊表示，全模态技术的关键在于统一架构下的能力融合与调用效率。开源后，开发者可在同一框架下调用视觉、语音与生成能力，减少多模型串联带来的工程复杂度。

目前，Ming-Flash-Omni 2.0 的模型权重与推理代码已在 Hugging Face 等开源社区发布，用户也可通过蚂蚁百灵平台 Ling Studio 进行在线体验。