敢说永不掉线、秒级恢复,华为的底气是什么?
创始人
2025-06-10 18:27:05
0

HUAWEI  X  HUXIU

在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的话题。

在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协同,实现整个系统的效能最优,才有更积极的现实意义。

如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技术发展创造条件。

近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关技术细节,为业界提供参考价值。

我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中国的蓬勃发展。

《华为技术披露集》系列

VOL.14 :高可用性

想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。

如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能承受日常的 "小磕小碰",又能在遇到突发故障时保持稳定运行。只有确保算力资源随时可用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成品"。

01

高可用核心基础:

面向超节点的故障感知、管理及容错

AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了全栈可观测能力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊断等四大能力的故障诊断技术。

当前行业水平下,万卡级别的AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还导致了算力资源的大量浪费。为解决这一问题,华为团队通过建立AI集群全系统可靠性分析模型,实现对可靠性指标的预计评估和分配分解。从可分析、可增强、可验证、可诊断等方面,持续构建可靠性系统工程能力,突破关键可靠性技术,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力。

超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降Lane,HCCL算子重执行,借轨通信,双层路由收敛,Step级重调度等特性,实现光模块闪断的故障率容忍度>99%。在新增10倍+光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模块闪断率低至电链路水平,保障了超平面的可靠性。通过构建Step级重调度能力,高频的HBM多比特ECC故障恢复时间缩短至1min,对于因为故障造成的用户的算力损失下降5%。

02

高可用助力业务:

万卡集群上千亿模型的线性度和训推快恢

线性度指标用于衡量训练任务速度或吞吐的提高比例(即完成时间缩短比例)随算力卡数增长比例的比值。华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT等四项关键技术,实现Pangu训练线性度提升。总体方案如下图所示:

实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡Atlas 800T A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix 集群相比256卡基线,线性度96.48%。

大规模AI集群运行过程中频繁因为各类硬件、软件故障导致训练任务中断,业界通常使用训练过程中周期保存的CKPT恢复训练任务。华为基于软硬件全栈的技术方案创新打造了如下分层分级的训练任务故障快恢系统,不同层级的故障恢复能力如下图所示。

通过数据集索引构建加速、模型编译缓存加速、集合通信建链加速、存储CKPT加速等关键技术优化,万卡集群的训练恢复时间可以做到10min以内,进程级重调度恢复能够有效缩短训练恢复时间到3min以内,进程级在线恢复进一步缩短训练恢复时间到30s以内,同时可以降低训练回滚时间到一个训练迭代的时间,且与集群规模、模型规模基本无关,极大提升了AI集群可用度和大模型训练效率。

随着千亿MOE模型架构演进,实例部署的组网架构从传统的一机八卡演进为大EP组网架构,目前在大EP组网架构下主要面临部署规模扩大导致的故障概率数量增大、故障爆炸半径变大的可靠性问题,任意硬件故障都会导致整个Decode实例不可用,进而导致推理业务受损,甚至中断。

针对大EP推理架构的可靠性难题,华为团队提出三级容错方案,实例间切换、实例内重启恢复、实例内无损恢复,从芯片驱动层、框架层、平台层相互协作,构筑端到端可靠性体系。在不同的故障场景下,采用不同的容错恢复手段,可以最小化用户损失。

其中实例内重启恢复技术,可构筑带内快速故障感知和重调度、参数权重和镜像预热技术等技术,将实例内重启恢复时间压缩到5min内。TOKEN级重试技术,基于DeepSeekV3 1P2D多机CloudMatrix 384场景下,针对HBM KV Cache故障,故障恢复时长(从故障发生到Token重新输出时间),小于10s。相较于业界的10min恢复实例,TLR可将故障影响减少60倍。

03

写在最后

针对AI算力集群的高可用性,华为团队提出了六大创新方案,即故障感知诊断、故障管理、集群光链路容错等高可用所需要三大基础能力,以及集群线性度、训练快恢、推理快恢等高可用为业务带来的三大支撑能力。这六大创新均带来了非常可观的收益,比如万卡集群可用度达到98%、集群训推最快达到秒级快恢、集群线性度达到95%+、千种故障模式库与分钟级故障诊断等。

面向未来,华为团队会持续在场景多元化与复合化为代表的新应用驱动、异构融合与对资源池化为代表的新架构突破、极致可观可测与智能自治免维代表的新工程范式等三个方向进行探索,带来更多的创新成果。

相关内容

热门资讯

浩辰软件涨0.96%,成交额1... 6月11日,浩辰软件涨0.96%,成交额1103.69万元,换手率0.65%,总市值27.63亿元。...
恒兴新材涨2.26%,成交额7... 6月11日,恒兴新材涨2.26%,成交额7971.19万元,换手率6.02%,总市值35.74亿元。...
天键股份涨2.53%,成交额2... 6月11日,天键股份涨2.53%,成交额2.02亿元,换手率6.87%,总市值68.71亿元。异动分...
贵阳市委书记胡忠雄一行莅临中科... 6月10日,贵州省委常委、贵阳市委书记胡忠雄一行莅临中科星图调研交流。贵阳贵安领导刘本立、毛胤强等陪...
积极意义与潜在威胁并存 台风来... 转自:央视中央气象台消息:今年第1号台风“蝴蝶”已于今天(11日)上午8点在南海中西部海面生成,截至...
爆了!“苏超”大牛股诞生,60...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 近9000股民集体沸...
南京型钢市场价格主稳个涨 整体... 南京型钢市场价格主稳个涨 整体成交仍显疲软   11日南...
中东“热度”不减,美国政策“烂... 转自:上观新闻加沙战事久拖不决、伊朗和美国的核协议难产、美国总统特朗普上任后首次中东行效果参差……随...
人社部:第三届全国技能大赛新增... 来源:中国新闻网 中新网北京6月11日电 (孔令佑) 在第三届全国技能大赛开幕倒计时100天之际,大...
95岁伊斯特伍德接受奥地利媒体... 过去的一周多时间里,世界各地的电影记者、娱乐新闻编辑,都遇上一桩大乌龙事件。5月30日,奥地利《信使...
润本股份跌0.99%,成交额1... 6月11日,润本股份跌0.99%,成交额1.44亿元,换手率3.90%,总市值145.98亿元。异动...
电气风电涨0.36%,成交额7... 6月11日,电气风电涨0.36%,成交额7147.12万元,换手率0.65%,总市值110.53亿元...
财达证券第2大股东拟减持 20... 中国经济网北京6月11日讯 财达证券(600906.SH)昨日晚间发布公告称,近日,公司收悉股东河北...
俄总统助理:俄乌本质上同属一个... 转自:北京日报客户端俄罗斯总统助理、俄方谈判代表团团长梅金斯基近日在接受《华尔街日报》采访时表示,俄...
无线传媒跌0.53%,成交额6... 6月11日,无线传媒跌0.53%,成交额6892.85万元,换手率3.75%,总市值194.40亿元...
美团持续优化骑手算法,多项举措... 在数字科技不断重塑生活与工作模式的当下,外卖骑手这一群体的权益保障与工作体验优化,成为社会各界广泛关...
新铝时代涨3.48%,成交额2... 6月11日,新铝时代涨3.48%,成交额2.71亿元,换手率14.86%,总市值72.29亿元。异动...
金埔园林涨3.42%,成交额3... 6月11日,金埔园林涨3.42%,成交额3.09亿元,换手率21.65%,总市值17.82亿元。异动...
国台办谈打击台“资通电军”三方...   中国台湾网6月11日讯 国务院台湾事务办公室今天上午举行例行新闻发布会,国台办发言人朱凤莲主持本...
鹏辉能源跌0.84%,成交额5... 6月11日,鹏辉能源跌0.84%,成交额5.30亿元,换手率5.01%,总市值130.11亿元。异动...