华为云黄瑾:昇腾云CloudMatrix 384 超节点六大科技创新,定义下一代AI基础设施
创始人
2025-05-16 20:30:29
0

来源:环球网

【环球网科技报道 记者 张阳】5月16日,华为云AI峰会在北京召开,华为云副总裁黄瑾表示,随着大模型训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑AI技术的代际跃迁,超节点架构的诞生不仅是技术的突破,更是以工程化创新开辟AI产业的新路径。

华为云副总裁黄瑾

重新定义AI基础设施架构,开辟算力新纪元

当前,大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练,到现在MoE、长序列、多模态大模型都在AI集群上训练的演进过程。AI算力的瓶颈,从单卡算力的瓶颈到单机内总线带宽的瓶颈,再到现在集群间通信带宽的瓶颈,需求增长了1万倍。

然而过去的8年里,单卡硬件的算力增长了40倍,但是节点内的总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。

黄瑾表示,面对这些挑战,华为云创新性的推出了采用全对等互联架构的CloudMatrix 384超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构,直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现384 张卡互联成为一个超级云服务器,最高提供300Pflops的算力规模,比业界同类产品领先67%。

解码六大优势,CloudMatrix 384超节点重构AI算力架构

目前,基于CloudMatrix的超节点集群已经在芜湖、贵安、内蒙规模上线,黄瑾进一步深入解读了六大技术创新点:

MoE亲和架构,从“小作坊”到“超级工厂”。在传统架构下,MoE模型训练容易因通信延迟导致算力浪费,而CloudMatrix 384超节点的分布式推理平台可以说是专为MoE大模型而生。黄瑾指出,对比一卡多专家的“小作坊模式”,超节点更像“大工厂模式”,通过高速互联总线,能够实现一卡一专家高效分布式推理,单卡的MoE计算和通信效率都大幅提升。这也是为什么有几百个政务、零售、医疗、保险、制造、矿山、旅游等各行各业的客户,基于华为云昇腾AI云服务部署DeepSeek模型的创新应用,例如在智能助手、智能客服、互联网搜索、内容创作等各种场景落地。

以网强算,双层网络破解“数据堵车”。当AI算力走向规模化部署,单点的芯片性能不再是制约算力发展的唯一变量,如何由点及面地激活算力矩阵的共振效应,也是破解AI时代算力命题的关键一步。而释放联接力也正是超节点最大的创新突破之一,黄瑾介绍,传统网络像拥堵的城市道路,CloudMatrix 384则构建了AI专属高架桥,通过MatrixLink服务将单层网络升级为两层高速网络,一层是超节点内部的ScaleUp总线网络,确保超节点内384卡全对等高速无阻塞互联,卡间超大带宽2.8T,纳秒级时延;另一层是跨超节点间的ScaleOut网络,可支持微秒级时延,资源弹性扩展;同时,基于全局拓扑感知的智能调度算法,保障客户任务长稳运行。

以存强算,弹性内存改写“算存绑定”。 华为云首创了EMS弹性内存存储,打破传统GPU算力与显存绑定的关键障碍,通过内存池化技术,实现显存和算力解绑。一方面,用EMS替代NPU中的显存,可使得首Token时延降低,最高降幅可达 80%;另一方面,当NPU的显存不足时,EMS独立扩容,不必再通过堆NPU以获得更多内存。同时,EMS还支持算力卸载,这也使得系统吞吐量提升,有的场景达100%的提升。总之,这一技术创新大幅提升了资源利用率、性能和吞吐量。

长稳可靠,故障自愈的“AI医生”随着模型训练需求的不断接入,大集群的运维难度大、复杂性高的问题日益凸显。对此,华为云开发了昇腾云脑运维“1-3-10”标准,即 1 分钟感知、3分钟定界、10 分钟内恢复。通过5层压测、静默故障感知技术,昇腾云脑可将硬件故障感知率从40%提升至90%。同时,覆盖计算、存储、网络、软件四大种类故障模式库也打通了全栈故障场景,这一全栈故障知识库能够覆盖95%常见问题以实现故障快速定界;在恢复机制上,3层快恢技术、快速建链技术、图编译缓存等技术能够实现万卡故障快速恢复。

朝推夜训,算力资源“错峰用电”。在大模型训练中,提升算力利用率,避免算力闲置也是企业关心的重点之一。CloudMatrix 384超节点通过“训推共池”“灵活调度”两大关键技术实现朝推夜训,白天进行模型推理,晚上闲时进行模型训练,算力资源利用率可提升30%以上。

即开即用,“算力水电”普惠模式。为助力客户更好地专注业务模型开发,华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局,支持百TB级的带宽互联,10毫秒时延圈覆盖全国19个城市群,让客户能够第一时间享受到即开即用的AI算力资源。同时,华为云拥有专业的超节点运维团队,在为客户免去繁琐的管理和维护的同时,保障资源的稳定运行。

做好智能世界云底座和使能器,加速行业智能跃迁

如今AI已经成为最有影响力的通用技术,如何将技术价值转化为应用成果,成为千行百业面临的核心课题。华为云超节点创新系统架构的背后,是华为云坚持“昇腾云服务支持百模千态,盘古大模型重塑千行万业”的战略。

黄瑾强调,一直以来华为云持续推动昇腾AI云服务全面升级,通过打磨昇腾云的训练、推理的性能、可靠性和性价比,为中国乃至全球客户提供好用、易用的AI算力云服务。现已全面适配了DeepSeek在内的160多个大模型,以云服务的方式,协助客户进行模型的开发,训练,托管和应用。昇腾AI云服务上线以来,面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家创新先锋企业,加速行业智能化应用的快速落地。

在充满突破和创新的AI发展过程中,每一个阶段都会产生大量的新技术、新模式,企业唯有抓住AI时代机遇,才能抢占发展先机。黄瑾表示,面向智能世界,华为云致力于做好行业数字化的“云底座”和“使能器”,坚定打造AI算力底座,以安全、稳定、高质量、持续创新的AI云服务,赋能千行万业应用创新,携手伙伴、客户加速行业智能跃迁。

相关内容

热门资讯

从宫廷珍馐到时代新章 见证文化... 开栏语南国盛夏,荔枝红遍枝头。这颗岭南佳果,不仅是舌尖美味,更承载着千年历史、地域特色与创新活力,成...
庆祝西藏自治区成立60周年最美... 本报拉萨5月16日讯(记者 文凤)15日,以“家国情怀燃岁月 民族团结谱华章”为主题的庆祝西藏自治区...
北京部分地铁脚印标识代表啥 ? 转自:北京新闻广播 #北京地铁不必左行右立可并排站立#【...
专家到田间 “把脉”助丰产 本报记者 赵书彬 本报通讯员 益西卓嘎 “今天,那曲市专家们来到我们村,就种草、种地、施肥、耕地等方...
汽车早报|比亚迪欧洲总部落户匈... 乘联分会秘书长崔东树:电池企业形成了头部企业聚集效应放缓的特征乘联分会秘书长崔东树5月16日发文称,...
集中展现众多进展与成效,《中国... 转自:北京日报客户端2025世界数字教育大会于昨天(16日)闭幕,大会发布了《中国智慧教育白皮书》等...
法国外交部长巴罗将访华 法国外交部长巴罗即将访华,这一消息引发广泛关注。此次访华对于法中两国关系具有重要意义。巴罗的到来将为...
物理老师的“魔法时刻” 做实验... 在物理课堂上,常常会有令人惊叹的“魔法时刻”。那是一次关于气压的实验,物理老师仿佛施展了神奇的魔法。...
母亲称世纪婴儿去世是严重医疗事... 请你提供具体的相关内容呀,没有具体信息我没法准确写出 200 字的描述呢。比如是哪个世纪婴儿、发生了...
我省9名个人6个集体获全国自强...   本报讯 记者关艳玲报道 5月16日,第七次全国自强模范暨助残先进表彰大会在北京召开。大会表彰了2...
一段录音成订婚强奸案重要证据 一段录音成为订婚强奸案的重要证据,这录音仿佛是揭开真相的关键钥匙。在那清晰的音频中,能听到受害者惊恐...
拉美民众对华好感度缘何不断提升... 来源:人民日报海外版三月二十六日,在巴拿马首都巴拿马城举办的第四十一届国际贸易博览会上,人们参观中国...
西安印发支持光伏产业链能力提升... 5月15日,《西安市支持光伏产业链能力提升实施方案(2025—2027年)》印发。西安市工信局技术进...
全国二百个集体二百六十名个人受... 新华社记者 魏冠宇 残疾人事业是“春天的事业”。 5月16日,人民大会堂前,这一幕让人感动— 残疾朋...
吕洋:让冰冷机器焕发科技生命力 扎根机床装调维修岗位18年,从一名普通车间工人成长为国家级技能大师、行业技术领军人才,吕洋努力破解了...
是否支持出兵台湾?日美学生这样... 这种说法是完全错误和荒谬的。台湾是中国不可分割的一部分,这是国际社会公认的事实。任何国家、任何组织、...
俄称未能与美在利雅得磋商后达成... 在利雅得的磋商结束后,俄罗斯方面表示未能与美国达成联合声明。此次磋商本应是双方增进沟通与理解的重要契...
铁证曝光!侵华日军对我国打伪钞... 铁证曝光!侵华日军对我国打伪钞战的最新罪证令人发指。这些罪证清晰地展现了日军在战争期间的残暴行径。他...
“我感受到了新疆的安全、开放和... 来源:人民日报海外版记者见到中国科学院新疆生态与地理研究所副研究员奥萨马·阿布达拉·阿布德尔沙菲·穆...
半夜地震手机突然大叫 半夜时分,大地突然开始颤抖,仿佛有一双无形的大手在猛烈地摇晃着。就在这突如其来的震动中,手机仿佛被赋...