亮点:业界首次发布昇腾建模仿真平台,实现负载-优化策略-系统架构联动寻优,找到基础设施运行甜点
•训练-并行配置、内存管理、系统亲和通信策略小时级自动寻优
•推理-访存优化、负载均衡、服务化调度策略分钟级在线优化求解
•高可用-集群故障快速仿真排查,已知故障分钟级定位,万卡快恢最短路径寻优
大模型训推系统宛如一辆精密调校的赛车,即便搭载超级引擎(高算力芯片),如果油箱(内存)、变速箱(带宽)与路况(任务类型)不匹配,仍会陷入"龟速"困局。华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合上,而传统“人拉肩扛”的优化方法在芯片特性的"三角矛盾"(算力-带宽-容量失衡)前束手无策。
三大挑战:动态负载需求下的软硬件博弈
•大规模训练集群的利用率黑洞:大模型训练过程像驾驶中的"猛踩油门"(训练阶段密集计算),MoE模型更如混合动力车,需精准平衡计算与内存配比,极致压缩通信占比,稍有不慎便效率骤降。
•动态实时推理系统任务的两极分化:从短问答(城市道路)到长文本生成(越野山路),推理阶段硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐力,在不同任务场景实现动态效率最优。
•复杂万卡集群的长稳运行:为突破计算-内存动态博弈(服务区分配)、异构任务资源争抢(车祸变道)及硬件耐久性(车道维护)瓶颈,需实现毫秒级资源再平衡与故障容错,保障作业万级小时无间断运行。
破局之道:”数字化风洞“
在正式开展复杂AI模型的训推之前,可以先在虚拟环境的“数字化风洞”中"彩排"。比如研发一个新药筛选模型时,先通过模拟不同的参数、输入和资源分配方案,预测模型在真实场景的表现,就像电影导演用动画预演复杂镜头。这种"先模拟后实战"的方式,能提前发现计算系统的瓶颈点和逻辑漏洞,并提出相应优化手段,节省大量真实训推的时间和资源。
面对昇腾芯片的异构特性(跑车式高算力vs货车式大容量),华为马尔可夫建模仿真团队构建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过昇腾亲和的性能加速与训推系统极致高可用,助力大模型运行“又快又稳”。
Sim2Train:昇腾训练集群架构仿真与设计空间自动寻优(大规模训练集群的“效率发动机”)
基于仿真能力,通过全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能,实现并行配置、内存管理、系统亲和通信策略小时级自动寻优,支撑MFU达成41%。这套方案如同为大模型系统装上自动驾驶仪,让每一份算力都在精准导航下全速驰骋。
•动静态融合的大规模训练集群建模仿真方法:通过有向无环图的算子组合,灵活表达大规模AI应用,快速精准扫描模型对计算、内存、通信的"油耗需求",结合对昇腾平台的精准硬件刻画能力,依托有向无环图连通静态建模与动态仿真,精准刻画大规模训练集群运行效率。
•以仿寻优,“千锤百炼”终获最佳方案:依托负载-软件-硬件协同优化范式,发现最优的设计与优化方案。1)实现面向昇腾平台的模型结构智能搜索与优化,达成模型性能与功能能力的最优均衡;2)面向CloudMatrix昇腾超节点复杂拓扑结构,实现芯片级、拓扑级与负载级的全栈架构建模与策略联合优化;3)基于实时数据采集与自动反馈校准机制,完成对硬件的细粒度抽象建模,全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。
图1Sim2Train训练仿真系统框架Sim2Infer:昇腾推理系统架构仿真与运行时在线自优化(动态实时推理系统的“性能加速器”)
基于仿真能力,通过推理服务多层级量化建模、动态智能优化等技术,实现高性能动态专家激活、自适应混合精度推理、全局最优化负载均衡部署、服务化调度策略分钟级在线优化策略自动求解,端到端推理性能提升30%+。这套方案如同符文契约下的高科技炼金熔炉,压榨每一份算力资源。
•多层级推理系统建模仿真,负载生成-请求调度-推理引擎-硬件系统四层架构:构建了面向昇腾平台的复杂推理建模仿真系统,该系统集成了五大核心功能模块:负载特征建模、层次化系统架构分析、模块化策略描述、离散事件驱动仿真和分层搜索优化机制。
•动态优化,极致压榨硬件能力的“性能炼金术”:通过软硬协同的建模仿真驱动一系列的推理系统创新优化。1)建模分析系统参数与模型设计因素的关联关系,提出昇腾推理亲和的MoE模型结构建议;2)大EP场景MoE模型的最佳推理部署方案寻优;3)通过多维代价模型建模,从访存优化、负载均衡、计算通信掩盖、算子融合等多维度实现基于昇腾平台的软硬件协同推理加速创新,在昇腾平台上综合实现推理性能提升30%+,为大模型在昇腾平台上提供低延迟、高吞吐的推理部署方案。
图2Sim2Infer推理仿真系统框架Sim2Avaliablity:昇腾算力系统高可用架构仿真与统一协同管控(大规模训推集群的“安全气囊”)
基于高可用仿真能力,通过随机优化搜索、灵敏度分析、动态规划去冗余优化等技术,实现集群硬件架构可靠性瓶颈定位及优化、软件故障统一管控决策,支撑万卡集群分钟级快恢,可用度达到98%。这套方案如同为大规模集群系统装上“安全气囊”,保障高效算力长稳运行。
•硬件故障模式全栈监控的“智能感知座舱”:高效精准构建集群系统对计算、存储、网络的"状态监控",通过马尔科夫链刻画系统的随机行为,将系统离散化为有限状态(如“健康”、“亚健康”、“故障”等),并基于事件驱动构建状态转移模型,从宏观视角掌控全局硬件系统状态。结合故障随机模拟,构建蒙特卡洛分析硬件可靠性瓶颈,实现集群硬件可测可控。
•软件统一协同管控仿真,保证高效弹性快速恢复:从细节到全局高效分析不同故障场景下的端到端系统可用度。1)从计算侧、网络侧及整个集群等层面量化分析,实现了可靠性瓶颈定位,强力支撑AI集群高可用架构设计;2)通过动态规划弹性调度、极致去冗余并行掩盖优化等技术,实现算力系统可用度提升显著。保障算力稳如磐石,管网调度优化效率跃升数倍。
图3Sim2Availability高可用仿真系统框架未来与展望
随着新型应用快速变化(细粒度MoE、原生多模态、生成式推荐、Agentic AI、Physical AI、互联网AI),系统架构持续创新(PIM/NDP、Wafer-Scale Computing、集群池化系统、光电混合系统),未来算力基础设施的架构设计与优化空间持续激增,需要建模仿真方法支撑算力基础设施的持续演进。华为马尔科夫建模仿真团队将继续持续深化负载自动图化建模、多维架构耦合仿真等关键技术,在系统瓶颈分析、最优部署策略求解、架构设计空间探索、故障仿真快速排查、算力系统Benchmark构建等领域发力,助力华为昇腾集群高效平稳运行,推动国产算力基础设施建设与AI计算技术创新。