上帝视角的昇腾MoE训练智能交通系统让训练效率提升70%
创始人
2025-06-03 14:53:11
0

随着大模型的迅猛发展,混合专家(MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要方向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模型参数的规模化扩展,更在处理复杂任务时展现出显著优势。然而,将MoE模型在分布式集群环境下进行训练时,训练效率不足,已成为亟待解决的难题。

MoE大规模训练难题:一半以上的训练时间在等待?

实践表明,MoE模型训练集群的效率面临两方面挑战:(1)专家并行引入计算和通信等待,当模型规模较大时,需要切分专家到不同设备形成并行(EP),这就引入额外All-to-All通信,同时MoE层绝大部分EP通信与计算存在时序依赖关系,一般的串行执行模式会导致大量计算单元空闲,等待通信;(2)负载不均引入计算和计算等待,MOE算法核心是“有能者居之”,在训练过程中会出现部分热专家被频繁调用,而冷专家使用率较低;同时,真实训练数据的长度不一,不同的模型层(如稀疏层、嵌入层等)的计算量也存在明显差异,造成不同卡之间计算也在互相等待。

形象地说,MoE训练系统就像一个交通拥塞严重的城区:1)人车混行阻塞,所有车辆(计算)必须等待行人(通信)完全通过斑马线才能通行,造成大量无效等待;2)车道分配僵化,固定划分的直行、左转车道就像静态的专家分配,导致热门车道(热专家)大排长龙,而冷门车道(冷专家)闲置。为此,华为团队构建了一套叫做Adaptive Pipe& EDPB的优化方案,就像一个“上帝视角的智慧枢纽”,让MoE训练集群这个“城市交通”实现无等待的流畅运行。

DeployMind仿真平台,小时级自动并行寻优

华为构建了名为AutoDeploy的仿真平台,它是一个基于昇腾硬件训练系统的“数字孪生”平台,通过计算/通信/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等技术,能在1小时内模拟百万次训练场景,实现MoE模型多样化训练负载的快速分析和自动找到与集群硬件规格匹配的最优策略选择。在训练实践验证中,该建模框架可达到90%精度指标,实现低成本且高效的最优并行选择。

针对Pangu Ultra MoE 718B模型,在单卡内存使用约束下,华为通过AutoDeploy以训练性能为目标找到了TP8/PP16/VPP2/EP32(其中TP只作用于Attention),这一最适合昇腾集群硬件规格的并行方案,综合实现计算、通信、内存的最佳平衡。

Adaptive Pipe通信掩盖>98%,让计算不再等待通信

华为构建了一套称为Adaptive Pipe的通信掩盖框架,在AutoDeploy仿真平台自动求解最优并行的基础上,采用层次化All-to-All降低机间通信和自适应细粒度前反向掩盖,实现通信几乎“零暴露”。

层次化专家并行通信。针对不同服务器之间通信带宽低,但机内通信带宽高的特点,华为创新地将通信过程拆成了两步走:第一步,让各个机器上“位置相同”的计算单元联手,快速地从所有机器上收集完整的数据块(Token);第二步,每台机器内部先对数据块进行整理,然后利用机器内部的高速通道,快速完成互相交换。这种分层设计的巧妙之处在于,它把每个数据块最多的复制分发操作都限制在单台机器内部的高速网络上完成,而在跨机器传输时,每个数据块只需要发送一份拷贝,相比传统All-to-All通信加速1倍

自适应细粒度前反向掩盖。在DualPipe掩盖框架的基础上,华为基于虚拟流水线并行技术,实现了更精密的调度,Adaptive Pipe(图1)。相比DualPipe,Adaptive Pipe仅利用一份权重,不仅将流水线并行所需的内存占用减半,有效降低了计算“空泡”,释放了流水线的峰值性能潜力;同时,该策略能够额外实现与分层通信的完美协同,无缝覆盖机间与机内两层通信的掩盖。在这种层次化通信和细粒度计算通信切分调度优化下,Adaptive Pipe可实现98%以上的EP通信掩盖让计算引擎不受通信等待的束缚。

图1 :自适应细粒度前反向掩盖方案:(a) warmup阶段纯前向;(b) cooldown阶段纯反向;(c) stable阶段前反向掩盖;第一行为计算算子,第二行为机内EP通信,第三行为机间EP通信;F代表前向算子,B代表反向算子,R代表重计算算子,PP P2P代表stage间的P2P通信。

EDPB全局负载均衡,让计算之间不再互相等待,训练再加速25%

在最优并行和通信掩盖基础上,由于MoE模型训练过程中天然存在的负载不均问题,集群训练效率时高时低。华为团队创新性地提出了EDPB全局负载均衡,实现专家均衡调度(图2),在最优并行和通信掩盖基础上,再取得了25.5%的吞吐提升收益

图2:集群P2P通信分析对比

专家预测动态迁移(E)。MoE模型训练中,设备间的专家负载不均衡如同“跷跷板”——部分设备满载运行,另一些却处于“半休眠”状态。团队提出了​基于多目标优化的专家动态迁移技术​​,让专家在分布式设备间“智能流动”。该技术主要有三个特点:

· 预测先行:让专家负载“看得见未来”​​:预测负载趋势,实现“计算零存储开销,预测毫秒级响应”;

· 双层优化:计算与通信的黄金分割点:提出​​节点-设备双层贪心优化架构,​​在让计算资源“齐步走”的同时,给通信链路“减负”;

· 智能触发:给专家迁移装上“红绿灯”​​:设计​​分层迁移阈值机制​​,通过预评估迁移收益动态决策,实现专家迁移的智能触发。

图3:基于专家动态迁移的EP间负载均衡整体框架图

数据重排Attention计算均衡(D)。在模型预训练中普遍采用数据拼接固定长度的策略,但跨数据的稀疏Attention计算量差异显著,会引入负载不均衡问题,导致DP间出现“快等慢”的资源浪费。为解决这一问题,华为团队提出了一种精度无损的动态数据重排方案,其核心在于:通过线性模型量化单样本计算耗时,在严格保持训练精度无损下,批次内采用贪心算法构建最小化耗时的数据重排,实现负载均衡​​。

虚拟流水线层间负载均衡(P)。MoE模型通常采用混合结构,Dense层、MTP层、输出层所在的Stage与纯MoE层所在的Stage负载不均,会造成的Stage间等待。团队提出​​虚拟流水线层间负载均衡技术,将MTP层与输出层分离,同时将MTP Layer的 Embedding计算前移至首个Stage,有效规避Stage间等待问题,实现负载均衡。

图4:基于异构模块设计的VPP并行负载均衡

整体系统收益

回到最开始提到的城市交通场景,Adaptive Pipe& EDPB这套方案,形象的说就是创新性地引入两大智能设施:首先,建造"行人地下通道"(通信掩盖),彻底分离人车动线,使车辆(计算)无需等待即可持续通行,行人(通信)在底层独立穿行;其次,部署"智能可变车道"(动态专家迁移),根据实时车流(数据分布)动态调整车道功能,让闲置的左转车道也能分担直行压力,实现负载均衡,整体让城市交通实现无堵车流畅运行。

在Pangu Ultra MoE 718B模型的训练实践中,华为团队在8K序列上测试了Adaptive Pipe& EDPB吞吐收益情况,在最优并行策略的初始性能基础上,实现了系统端到端72.6%的训练吞吐提升

相关内容

热门资讯

中金公司:预计小家电公司盈利能... 人民财讯6月5日电,中金公司研报称,在家电以旧换新政策带动及低基数效应下,预计今年小家电行业需求有望...
白宫宣布对哈佛大学国际学生实行... 6月4日,美国总统特朗普签署了一项总统公告,宣布对哈佛大学实施新的限制措施,理由是该校未能充分配合联...
西藏在全国率先推出青稞完全成本... 本报拉萨6月4日讯(记者 索朗琼珠)近日,自治区财政厅联合农业农村厅、国家金融监督管理总局西藏监管局...
《甘肃省妇女权益保障条例》将于...   原标题:《甘肃省妇女权益保障条例》将于8月1日起施行中国甘肃网6月5日讯 据甘肃日报报道 (新甘...
石家庄警方侦破驾考舞弊案:考场... 转自:上观新闻参加驾考C2科目一考试的于某花,轻松躲过了摄像头的监控和工作人员的巡查。她坐在考场的座...
浙江舟山:船舶维修忙 来源:人民网-图片频道 2025年6月3日,浙江省舟山市普陀区小干岛上的船舶维修企业一派繁忙景象,工...
悬赏通告!宁恩纬等20名台湾民... 本文来自微信公众号“大象新闻”记者今天(5日)从广州警方获悉,针对台湾民进党当局相关的黑客组织对大陆...
约30个城市将试点人力资源服务... 记者6月4日获悉,人力资源社会保障部等四部门近日联合印发《关于开展人力资源服务业与制造业融合发展试点...
澳门大学研发“糖”治疗椎间盘退... 来源:海外网海外网澳门6月4日电(记者富子梅)记者从澳门大学获悉,澳门大学中华医药研究院团队经过多年...
住建系统“安全生产月”活动启动 住建系统“安全生产月”活动启动将围绕消防安全、城镇燃气、房屋市政工程等方面集中排查整治安全隐患  本...
文旅市场火热 消费活力释放 登山爱好者登顶洛堆峰。(资料图) 本报记者 潘多 郑璐 明吉 摄 市民游客正在西藏博物馆内购买...
工信部公布传统优势食品产区和地... 工信部公布传统优势食品产区和地方特色食品产业重点培育名单(第一批) 兰州牛肉拉面位列其中资料图片每日...
国台办宣布对“台独”顽固分子沈... 转自:新华网  新华社北京6月5日电 国务院台办发言人朱凤莲5日表示,经查,“台独”顽固分子沈伯洋之...
“物理整合”跃至“化学聚合” 来源:法治日报 □ 推进综治中心规范化建设□ 本报记者 刘中全□ 本报通讯员 柏巍推开一扇门,化解万...
美股异动丨纳比特涨71.24%... 格隆汇6月5日|中概股收盘涨幅前五的个股为:纳比特涨71.24%,移动财经涨60.83%,宝盛涨54...
郑州市公安机关“护考模式”上线 开通户政“绿色通道” 严查考点周边交通……全市公安机关“护考模式”上线中原网讯(记者 刘德华 张玉东...
谷歌调查显示Z世代引领“无密码...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! IT之家 6 月 5...
宁夏银川:“沙戈荒”光伏赋能绿... 来源:人民网-图片频道 2025年6月3日,俯瞰位于宁夏回族自治区银川市兴庆区月牙湖乡的一处“沙戈荒...
中东土豪出资1亿美元后,丁磊再... 高合汽车又有新消息!天眼查App显示,近日,因未按指定期间履行生效法律文书确定的给付义务,高合(广州...
世界首次!我国科学家确证存在史... 我国科学家凭分子遗传学证据确认,山东广饶傅家遗址存在距今4750年以前由两个母系氏族构成的社会形态。...