过去几年,AI算力需求的爆发让英伟达一度成为最大赢家。但近期多重信号表明,这种“单边行情”正在发生变化。行业内部的“抱怨”与资本市场的情绪在同步转向,“天下苦英伟达久矣”不再是一句戏谑,而成为一段市值波动背后的真实写照。自10月29日以来,英伟达市值在一个月时间里蒸发超7000亿美元(约合人民币5万亿元)。
11月27日,英伟达创始人黄仁勋现身台北。值得注意的是,他向媒体直言“我真的超级累”。
触发这一轮变化的关键,并非传统意义上的竞争对手,而是谷歌。长期以来保持低调的TPU路线,首次站在了主导叙事的位置。
据媒体报道,全球AI基础设施投入最大的公司之一Meta,正在与谷歌洽谈一笔规模可观的芯片采购:从2027年起,计划投入数十亿美元购买谷歌的TPU,用于其数据中心。Meta今年的资本支出预计在700亿至720亿美元之间,这笔潜在订单的象征意义远大于商业价值,意味着行业头部玩家对谷歌AI芯片体系的认可与验证。
谷歌来势汹汹,英伟达的反击迅速而果断。北京时间11月26日,英伟达公开表示,公司依然“领先业界一代”,并强调自己是“唯一一个可以运行所有人工智能模型的平台,并且可以在任何地方进行计算”。
英伟达的防御逻辑依然坚硬:与谷歌TPU等专用ASIC芯片相比,GPU拥有更优秀的通用性和灵活性。在CUDA生态的加持下,英伟达依然掌握着最为广泛的开发者护城河。
但行业的讨论已经转向另一个维度——能效比。AI训练与推理的规模正继续扩大,而能耗正在成为新的约束。在同等工艺下,TPU的能效比明显优于GPU,而Gemini 3全程基于谷歌TPU训练的事实,使这种优势开始具备现实意义。
除此之外,一个围绕ASIC(专用集成电路) 路线的新“挑战者联盟”正在成型:Meta、亚马逊、微软、阿里巴巴、百度等云服务厂商,以及博通、寒武纪等一批芯片企业,都在构建面向特定场景的定制化AI芯片。
与此同时,通用GPU阵营也出现了更多参与者。AMD、英特尔、海光信息(688041.SH)、摩尔线程(688795.SH)、沐曦、壁仞等公司在持续推出新产品,试图通过系统架构及集群优化提升整体竞争力。
市场对英伟达的看法也在变得更加审慎。从“难以替代”到“存在替代可能”,情绪的转向往往先于产业格局的转折。
这并不意味着英伟达的主导地位会在短期内动摇。CUDA生态和通用算力优势依然构成它的核心护城河,但这个行业第一次出现真正能够挑战的变量:当谷歌能用TPU训练出最先进的模型,当Meta认真考虑将数十亿美元投向竞争对手时,原本牢固的结构开始出现细微裂缝。产业变迁往往就是从这些不易察觉的裂缝开始的。
谷歌TPU更有性价比
在硅谷,所有的昂贵最终都会输给“够用且便宜”。
投资者之所以重新评估英伟达的主导地位,很大程度上源于谷歌正在提供一种更具性价比的“AI模式”,依靠功能相对单一但价格更低的自研TPU,去完成大模型训练。SemiAnalysis的模型数据显示,谷歌TPUv7在成本效率上对英伟达构成了绝对优势。
TPU是为特定任务(如深度学习中的矩阵乘法和卷积运算)优化的ASIC,通过牺牲通用性,换取极致的性能和能效。半导体资深专家张国斌在接受时代周报记者采访时表示,“在同等工艺下,TPU 的能效比(性能/瓦特)远高于GPU。例如,最新一代的Ironwood TPU的能效比是初代TPU的30 倍。”
事实上,谷歌在这一技术路线上的投入已持续十年。从2015年推出第一代TPU起,每一代产品都在性能、可扩展性与系统效率上不断提升。伴随光互连技术融入TPU系统,谷歌得以在2025年的 TPU v7 上构建超过9000颗芯片的超大规模集群。
这种提升并未停留在谷歌内部生态。OpenAI已开始使用TPU进行部分训练;Anthropic明确承诺将以TPU v5e 作为其下一阶段的大规模训练平台,并强调选择理由是“性能与成本的平衡”。谷歌也在主动将TPU网络拓展至中小型云厂商,通过更灵活的合作方式降低进入门槛。
其中最受市场关注的,是谷歌基于“硬件即服务”(HaaS)的合作模式。不同于一次性硬件销售,谷歌保留TPU的所有权,将设备部署在合作伙伴的数据中心,并按使用量进行分成。华泰证券研报认为,这是一种典型的“游击战式”市场渗透策略;巧妙地降低合作伙伴的capex(资本性支出)进入壁垒,免除新兴和中小型云厂商数十亿美元的硬件投资压力。
此外,谷歌正在打造“算力—网络—模型—用”全栈体系(TPU+OCS+Gemini+云服务),实现了从芯片到应用的深度整合。这种整合使得谷歌可以进行系统级优化,例如数据中心网络拓扑完全为 TPU超节点服务。张国斌认为,随着竞争对手的不断进步和市场的多样化需求,英伟达的垄断壁垒确实面临挑战。特别是ASIC(专用集成电路)在特定任务中的高效率和低功耗表现,可能在某些细分市场对英伟达构成实质性威胁。
单卡性能重要性在下降
在单卡性能上,英伟达依旧占据绝对优势,但是超节点集群的高效连接和系统级优化可能削弱英伟达在大规模数据中心和云服务提供商中的优势。
所谓“超节点”(SuperPod),原本是英伟达提出的概念,通过系统级架构创新,将成千上万颗计算芯片紧密耦合为一个高速互连域,以弥补传统服务器之间带宽不足、时延偏高的问题。行业在过去一年里大步走向这一方向,速度超出许多人的预期。
谷歌在Google Cloud Next 25大会上正式推出第七代张量处理器 Ironwood,通过其 ICI scale-up 网络,超节点规模可达到9216颗芯片,峰值性能达到4614TFLOPS,是上一代TPU v5p的10倍。
中国厂商的动作同样密集。华为轮值董事长徐直军在9月的公开演讲中判断,超节点已成为大型算力基础设施的主导形态。他透露,超节点产品 Atlas 950 SuperPoD和Atlas 960 SuperPoD,分别支持8192及15488张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,在未来多年都将是全球最强算力的超节点。
阿里云在2025云栖大会上推出磐久128超节点服务器,依托自研CIPU 2.0 和 EIC/MOC 网卡,单柜即可容纳128颗AI芯片。百度昆仑芯今年4月已在百舸5.0中全面启用超节点,并实现量产部署。
国产GPU厂商也在加速追赶:曦智科技联合壁仞、中兴推出光互连GPU超节点 LightSphereX;燧原的云燧ESL超节点系统单节点可实现64卡全带宽互联;沐曦的曦云C600支持MetaXLink 超节点扩展;摩尔线程则以自研KUAE计算集群,通过5D分布式并行技术实现上千节点协作。
从华为、阿里、百度到“GPU”四小龙壁仞、燧原、沐曦、摩尔线程,国产阵营纷纷发力超节点。
华龙证券认为,中美AI竞争正从“单卡性能”走向“系统级效率”,中国正在用集群建设+开源生态+工程化交付的方式完成AI基建方面的弯道超车。
当AI算力竞争从“芯片之争”转向“体系之争”。单卡性能的重要性在下降,系统效率、能效比、规模化集群交付能力正在成为新的评价标准。
对英伟达来说,现实既不至于悲观,也绝不轻松。英伟达依然拥有最成熟的生态、最强大的通用算力体系,以及行业最广的开发者基础。但是谷歌靠TPU打开了一个新的可能性窗口,云服务厂商的自研ASIC与超节点集群也在持续扩大影响力。围绕“够用、便宜、可规模化”,越来越多的变量正在同时发力。
下一篇:12月新规!