华为芯片,究竟有多牛?(上)
创始人
2025-07-06 11:22:12

21世纪经济报道记者倪雨晴 深圳报道

华为的昇腾,让英伟达黄教主都坐不住了。他公开表示,华为昇腾CloudMatrix 384超节点,部分性能上甚至超过英伟达的产品。

华为的384超节点方案,就像全真七子用剑阵打黄药师,集群一起上,黄药师还真有点招架不住。

海外专业机构SemiAnalysis更是直接点名:384超节点的整体计算能力是英伟达GB200机柜的1.6倍!

在单芯片性能受限、制裁持续的情况下,华为昇腾是真能打,还是“自嗨”?它是如何与英伟达竞争的?国产算力究竟到了什么水平?还有什么差距? 

今天,我们就带着这些问题,一口气了解对垒英伟达的国产芯片,昇腾。

和英伟达“掰手腕”

昇腾此前非常低调,它是华为打造的一款AI芯片。它不是拿来打游戏的显卡,也不是电脑中的CPU,而是专门针对AI任务的加速芯片NPU,是一颗纯纯的“AI处理器”。

目前昇腾最主力的产品叫“昇腾910”。但以往的昇腾芯片,更多是作为“备胎”使用的——因为美国断供,英伟达、AMD最高端的芯片买不到,很多厂商只能硬着头皮用国产,而昇腾已经是国产芯片中的佼佼者。

过去几年,昇腾其实主要用在AI“推理”环节,也就是模型训练好之后,用它来支持大模型生成内容、聊天等应用环节。但模型训练?说实话——很少用国产芯片,原因也简单:单卡性能弱、生态不够用、系统稳定性差。

但这一切,在2024年和2025年,彻底变了。

华为把昇腾从一个“能用的备胎”,打造成了“能打的主力”,直接上阵训练出了一流大模型。

这些成绩,不是闭门吹牛,而是写进了实打实的论文里——一款模型,用了8192颗昇腾芯片,训练出1350亿参数的稠密大模型“盘古Ultra”;

另一款,用了6000多颗芯片,训出了7180亿参数的 MoE(混合专家)大模型。 

这意味着:用纯国产AI芯片,也能训练出千亿参数的国产大模型。

但是!光能训还不够,训得好,才叫硬实力。

怎么判断“训得好”?有个关键指标叫 MFU,也就是“算力资源利用率”。

说白了就是:有没有把芯片榨干用满?有没有把投入的算力物尽其用?

训练盘古Ultra稠密模型时,MFU超过 50%;在MoE模型中,MFU也达到了 41%,实验室数据甚至超过 45%。

这是什么概念?——属于全球一流水平,跑在行业前列。

训练完还不够,还要看推理谁跑得快。

华为和硅基流动的最新论文,直接把昇腾的384 超节点拉出来,和英伟达的 H100、H800 正面对比:谁在实战部署 DeepSeek-R1 这类大模型时更快、更高效?

结果是:在这场比拼中,昇腾和英伟达H系列差距不大,甚至在算力利用率上拿下全场最佳。

也就是说——至少从 DeepSeek-R1 的推理实战看,昇腾已经可以对标英伟达 H100 这一级别的产品,不输Hopper架构。

追赶速度之快,确实令人惊叹。

那和英伟达最新的 GB200 比呢?

SemiAnalysis 给出了评价:虽然单颗昇腾芯片的性能只有英伟达Blackwell的三分之一,但384 超节点堆了5倍的芯片数量!

最终,整体系统算力反超英伟达 GB200,这已经不是“能替代”的水平,而是“有机会领先”。

那么,昇腾,是怎么做到的?

请听下回分解。

相关内容

热门资讯

闪评 | 美伊谈崩后 以黎停火... 以色列与黎巴嫩的停火谈判将于当地时间4月14日在美国华盛顿举行。这场为了配合美伊谈判而进行的以黎谈判...
“身怀绝技”的汽车玻璃如何制造... 4月13日,记者跟随“牢记嘱托开新局 日新江淮往前赶”采访团走进位于合肥市肥西县的福耀集团全产业链生...
如何破解应用开发「变现难」?鲸... 当一款应用积累了越来越多的真实用户,它的商业价值该如何被兑现? 过去几年,这个问题曾困扰着无数开发者...
禁止向未成年人提供虚拟伴侣,帮...   作者:马青  据媒体报道,今年7月15日,《人工智能拟人化互动服务管理暂行办法》将正式施行(以下...
诺德股份(600110.SH)... 格隆汇4月13日丨诺德股份(维权)(600110.SH)公布,公司拟将所持有的参股公司深圳禹曦产业控...