5月28日,业界权威大模型榜单SuperCLUE最新公布,华为基于昇腾集群训练出的盘古Pro MoE大模型交出了超能打的成绩,实现了综合能力的领先。
当前,全球大模型竞争已进入白热化阶段。此前国际顶尖大模型的训练几乎均由英伟达GPU主导。此次华为盘古Pro MoE大模型的发布,证明了昇腾AI计算平台完全具备训练顶尖大模型的能力。这意味着国产AI基础设施的自主创新能力得到了进一步验证,为中国人工智能产业的发展提供了一颗“定心丸”。
模型能力:SuperCLUE榜单上表现卓越
作为华为盘古大模型家族的最新成员,盘古Pro MoE大模型采用混合专家架构(MoE),在参数量仅为720亿,激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。
SuperCLUE是中文通用大模型综合性评测权威基准榜单,在最新一期SuperCLUE总排行榜上,盘古Pro MoE达到了59分,千亿参数量以内大模型排行并列国内第一。数据显示,模型在逻辑推理、多轮对话、代码生成等核心能力维度均达到行业领先水平。
创新技术:突破性提出MoGE架构
混合专家模型(Mixture of Experts, MoE)为大型语言模型的高效执行和大规模参数化提供了新的可能性。然而,传统MoE架构在专家负载均衡方面存在显著问题,导致系统效率瓶颈。华为盘古团队推出了基于分组混合专家模型(Mixture of Grouped Experts, MoGE)架构的盘古Pro MoE大模型,通过在专家选择阶段引入分组机制,确保了跨设备的计算负载均衡,不仅解决了传统MoE架构中专家负载不均衡的问题,还显著提升了模型的训练效率和推理性能。在4K昇腾大规模集群上,盘古Pro MoE实现了高效训练的卓越性能。
行业价值:以高效能加速AI应用落地
在企业级应用中,盘古Pro MoE动态负载均衡技术有效降低云端推理成本,支撑高并发实时作业场景;同时通过轻量化推理引擎适配昇腾系列芯片,赋能广大客户运行百亿级模型,为AI产业应用领域开辟新蓝海。
据悉,盘古Pro MoE将向开发者社区开放模型权重,赋能行业开发者基于该模型进行垂直领域创新。与此同时,该模型将深度整合至华为云盘古大模型体系,为金融、制造、医疗等行业的智能化升级提供底层能力支撑。