昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
创始人
2025-06-10 21:17:04
0

想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。

如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能承受日常的 "小磕小碰",又能在遇到突发故障时保持稳定运行。只有确保算力资源随时可用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成品"。

高可用核心基础——面向超节点的故障感知、管理及容错

AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了全栈可观测能力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊断等四大能力的故障诊断技术。

当前行业水平下,万卡级别的AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还导致了算力资源的大量浪费。为解决这一问题,华为团队通过建立AI集群全系统可靠性分析模型,实现对可靠性指标的预计评估和分配分解。从可分析、可增强、可验证、可诊断等方面,持续构建可靠性系统工程能力,突破关键可靠性技术,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力。

超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降Lane,HCCL算子重执行,借轨通信,双层路由收敛,Step级重调度等特性,实现光模块闪断的故障率容忍度>99%。在新增10倍+光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模块闪断率低至电链路水平,保障了超平面的可靠性。通过构建Step级重调度能力,高频的HBM多比特ECC故障恢复时间缩短至1min,对于因为故障造成的用户的算力损失下降5%

高可用助力业务——万卡集群上千亿模型的线性度和训推快恢

线性度指标用于衡量训练任务速度或吞吐的提高比例(即完成时间缩短比例)随算力卡数增长比例的比值。华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT等四项关键技术,实现Pangu训练线性度提升。总体方案如下图所示:

实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡Atlas 800T A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix 集群相比256卡基线,线性度96.48%

大规模AI集群运行过程中频繁因为各类硬件、软件故障导致训练任务中断,业界通常使用训练过程中周期保存的CKPT恢复训练任务。华为基于软硬件全栈的技术方案创新打造了如下分层分级的训练任务故障快恢系统,不同层级的故障恢复能力如下图所示。

通过数据集索引构建加速、模型编译缓存加速、集合通信建链加速、存储CKPT加速等关键技术优化,万卡集群的训练恢复时间可以做到10min以内,进程级重调度恢复能够有效缩短训练恢复时间到3min以内,进程级在线恢复进一步缩短训练恢复时间到30s以内,同时可以降低训练回滚时间到一个训练迭代的时间,且与集群规模、模型规模基本无关,极大提升了AI集群可用度和大模型训练效率。

随着千亿MOE模型架构演进,实例部署的组网架构从传统的一机八卡演进为大EP组网架构,目前在大EP组网架构下主要面临部署规模扩大导致的故障概率数量增大、故障爆炸半径变大的可靠性问题,任意硬件故障都会导致整个Decode实例不可用,进而导致推理业务受损,甚至中断。

针对大EP推理架构的可靠性难题,华为团队提出三级容错方案,实例间切换、实例内重启恢复、实例内无损恢复,从芯片驱动层、框架层、平台层相互协作,构筑端到端可靠性体系。在不同的故障场景下,采用不同的容错恢复手段,可以最小化用户损失。

其中实例内重启恢复技术,可构筑带内快速故障感知和重调度、参数权重和镜像预热技术等技术,将实例内重启恢复时间压缩到5min内。TOKEN级重试技术,基于DeepSeekV3 1P2D多机CloudMatrix 384场景下,针对HBM KV Cache故障,故障恢复时长(从故障发生到Token重新输出时间),小于10s。相较于业界的10min恢复实例,TLR可将故障影响减少60倍

总结与展望

针对AI算力集群的高可用性,华为团队提出了六大创新方案,即故障感知诊断、故障管理、集群光链路容错等高可用所需要三大基础能力,以及集群线性度、训练快恢、推理快恢等高可用为业务带来的三大支撑能力。这六大创新均带来了非常可观的收益,比如万卡集群可用度达到98%、集群训推最快达到秒级快恢、集群线性度达到95%+、千种故障模式库与分钟级故障诊断等。

面向未来,华为团队会持续在场景多元化与复合化为代表的新应用驱动、异构融合与对资源池化为代表的新架构突破、极致可观可测与智能自治免维代表的新工程范式等三个方向进行探索,带来更多的创新成果。

相关内容

热门资讯

12个重点项目、10名招商大使... 仓山区智能制造产业对接会成果斐然!此次对接会共推出 12 个重点项目,涵盖智能制造的各个领域,吸引了...
文化杂谈 | 句句有“根”,吃... 转自:扬子晚报“苏超这些梗是谁想出来的?”“你们真的这么多文化内涵吗?”“江苏十三城今后还走动吗?”...
重庆水务全资子公司新增一项11... (转自:快查一企业中标了)快查APP显示,重庆水务相关公司重庆市三峡水务有限责任公司于2025年6月...
依依股份:目前未涉及谷子经济相... 北京商报讯(记者张君花)6月11日,依依股份在投资者互动平台表示,公司主营产品为宠物一次性卫生护理用...
速来!一张“苏超”球票带你玩转... 转自:扬子晚报这个夏天,苏超“足球热浪”越来越火,随着第四轮重磅来袭,6月15日,连云港将主场迎战苏...
突然,直线拉升!601377,... 今日(6月11日),市场全天震荡反弹,截至收盘,沪指涨0.52%,深证成指涨0.83%,创业板指涨1...
中非合作论坛成立25周年暨第四... 2025年6月11日,中非合作论坛成立25周年暨第四届中国—非洲经贸博览会招待会在长沙举行,中共中央...
粤车南下争取年内敲定,粤车南下... 【#粤车南下争取年内敲定#,#粤车南下有望不设限制区域#】香港特区政府与内地有关部门正积极筹划“粤车...
全球多地举办文明对话国际日主题... 转自:新华社新华社北京6月11日电 综合新华社驻外记者报道:首个文明对话国际日来临之际,中方同联合...
东百集团新增质押330万股 东... 6月11日,东百集团公告,大股东施霞将其持有的东百集团330.00万股股份进行质押,质押用途为质押贷...
海天味业港股IPO,总手数多,... (转自:郭二侠说财)今天A+H股安井食品通过港交所聆讯,算上6月4日通过聆讯的三花智控,以及正在招股...
全球首款L3级算力AI汽车!小... (转自:聚牛科技)【2025年6月11日,广州】 今日,小鹏G7正式亮相以及发布预售。作为2025年...
券商回购潮延续!年内已累计回购... 券商再掀回购潮。6月10日,中泰证券发布回购报告书,拟以3亿—5亿元回购股份。回顾年内,多家券商公布...
蒙草生态拟定增募资不超14.9... 6月11日晚间,蒙草生态(300355)发布定增预案,拟向不超过35名特定对象发行股份募集资金不超过...
康力源龙虎榜数据(6月11日) 康力源今日下跌7.91%,全天换手率63.46%,成交额5.63亿元,振幅13.75%。龙虎榜数据显...
挑扁担的高考女孩家是脱贫户 挑... 【#挑扁担的高考女孩家是脱贫户# #挑扁担的高考女孩暑假想兼职#】这两天,广西桂林一名高考女生,因在...
青岛银行:国信集团拟通过子公司... 人民财讯6月11日电,青岛银行(002948)6月11日晚间公告,青岛国信发展(集团)有限责任公司(...
永安药业6月11日龙虎榜数据 永安药业今日下跌8.87%,全天换手率24.11%,成交额12.54亿元,振幅14.47%。龙虎榜数...
安井食品通过港交所上市聆讯 北京商报讯(记者张君花)6月11日,据港交所文件,安井食品集团通过港交所上市聆讯,联席保荐人高盛、中...
海天味业:全球公开发售正式启动 转自:北京商报北京商报讯(记者 张君花)6月11日,海天味业发布公告宣布正式启动全球公开发售,将发行...