到现在,你可能已经听说过AI数据中心被称为工厂。这是一个恰当的描述:电力输入,Token输出。
诚然,这是一个过度简化的描述,但大规模AI推理的经济学确实具有欺骗性的简单。在给定电力量下,你能生成的Token越多越好。销售足够的Token来覆盖基础设施、电力、设施和运营成本,剩下的就是利润。
"对于数据中心来说,每瓦推理Token直接转化为云服务提供商的收入",英伟达CEO黄仁勋在公司最近的财报电话会议上重申。
正如流水线在1900年代革命了制造业,同样的现象正在数据中心发生。任何能提高每秒、每美元、每瓦Token数(TPS/$/W)的优化都是竞争优势。但这就是事情变得复杂的地方。扩展推理并不像更多GPU、更多Token那么简单。
并非所有Token都生而平等
使用现代硬件,以牺牲个人用户体验为代价来最大化Token吞吐量相当简单。
"在答案方面,这不是一刀切的。有SLA,有不同的应用类型,"英伟达加速计算产品总监Dave Salvator告诉El Reg。
这稍微改变了等式。现在变成了你能为给定的"goodput"生成多少TPS/$/W。
Goodput可能意味着很多东西,但在大语言模型推理的情况下,它通常指的是服务级别目标,如首Token时间在几百毫秒内,或每用户生成率大于每秒X个Token。
SemiAnalysis的InferenceX基准测试很好地说明了这一点。这个合成基准提供了对生成式AI推理性能扩展和经济学的最佳观察。
在这个图表中,我们看到每兆瓦总Token吞吐量与各种B300配置的用户交互性在帕累托曲线上的关系。在这里,理想性能是向上和向右。
InferenceX的效率帕累托曲线可以分解为三个主要类别。左侧的批量Token,右侧的昂贵低延迟Token,以及中间所谓的"适中区域"。
如你所见,芯片可以达到每兆瓦每秒超过350万Token的吞吐量,但要交换交互性,即每用户Tok/s来实现。这些Token服务成本低,但速度极慢。这种配置更像城市公交车。它不快,但能载很多人。
在频谱的另一端,芯片可以配置为最大化用户交互性,但这样做会牺牲吞吐量。更快的Token使这一层"高端"Token更令人向往,但较低的吞吐量意味着提供商需要收取更高费用。
中间区域被称为"适中"区域。它提供足够高的交互性,同时提供足够的吞吐量以具有成本效益。
软件的重要性
Goodput可能很棘手,因为实现它在很大程度上取决于硬件、软件和相关模型。大语言模型推理不再像争取足够计算能力来达到你的goodput那么简单。模型必须与正确的软件配对才能发挥最佳性能。
vLLM是一个流行的推理服务框架,它可能在一个模型上工作得很好,但在运行另一个模型时表现不如SGLang或TensorRT LLM等替代品。这是英伟达如此努力推广其推理微服务(NIMs)的原因之一。通过消除推理部署的猜测工作,他们不仅可以向你销售硬件,还可以销售订阅服务。
对于相同的电力量,InferenceX数据显示,在英伟达B200 GPU上运行的TensorRT LLM在服务DeepSeek R1等模型方面比SGLang等产品效率显著更高。话虽如此,开源推理引擎仍然受到大型超大规模运营商和模型公司的重视,因为它们可以针对特定工作负载进行优化和定制。
软件可以对底层硬件的效率产生很大影响。在这种情况下,英伟达的内部推理引擎TensorRT LLM比SGLang提供更好的性能。
分解计算
当查看英伟达的Dynamo或AMD的MoRI等分解服务框架时,性能差距相当大。通过在GPU池中分布相同的工作,这些框架将工作负载分解为较小的片段,在一些GPU上运行计算密集型预填充(提示处理)阶段,在其他GPU上运行带宽受限的解码阶段(Token生成)。
预填充GPU与解码GPU的确切比例会因模型而异,在某种程度上取决于你期望的goodput。如果你试图为大量用户提供服务,你可能希望更少的解码和更多的预填充GPU。同时,对于代码助手等延迟敏感的应用程序,你会希望相反的配置。
推理效率的最大收益之一来自在不同GPU上运行工作负载的不同部分。
分解服务以及多Token预测等技术(我们之前讨论过的一种推测解码形式)可以显著地向上和向右移动帕累托曲线。
驱动机架规模转型
专家混合(MoE)模型架构利用整个模型的子集来处理和生成Token,这正在改变我们构建系统的方式。
"这些专家必须彼此大量通信,"Salvator说,他解释说这推动了向分解计算和更大机架规模架构的转变,如英伟达的NVL72、AMD的Helios和AWS的Trainium3。
这些架构提供更多由高速扩展结构连接的GPU/XPU,这有助于减少延迟并提高吞吐量。
当然,挑战在于找到专家、流水线、数据和张量并行性的理想组合,以在最大化给定电力量的吞吐量的同时达到你的goodput目标。
推理效率的另一个大跳跃来自向机架规模架构的转变,如英伟达的GB200和GB300 NVL72机架。
比较英伟达面向企业的B300与其机架规模的GB300,我们看到较小的系统在用户交互性较低的场景中表现良好,但在每用户每秒约50个Token以上时就力不从心了。与此同时,机架规模系统在不妥协吞吐量的情况下保持更高程度的交互性。
目前,英伟达是唯一拥有你实际可以购买的成熟机架规模平台的供应商。然而,这种情况不会持续很久。基于AMD MI455X的Helios机架系统将在2026年下半年推出,并声称其性能至少在纸面上与英伟达的下一代Vera-Rubin机架相当。
虽然机架规模架构实现了更高效率,但对于更传统的风冷数据中心,AMD AI软件副总裁Anush Elangovan认为八路GPU机箱仍有一席之地。
根据你优化的性能频谱的哪一端,这些八路系统通常具有85%或更好的机架规模性能——特别是在帕累托曲线的右端。
考虑到这一点,以及那些较小系统成本低得多的事实,可能解释了为什么AMD和英伟达在推广其NVL和Helios机器的同时继续为这个细分市场提供服务。
我们可以在数据中看到这一点。
至少对于新云运营商来说,机架规模的成本效益主要体现在更高的吞吐量和较低的交互性上。同时在更高的交互性下,英伟达和AMD的八GPU机箱仍然表现良好。
除了英伟达和AMD的AI加速器输出Token的效率外,InferenceX还跟踪推理成本。帕累托曲线越接近右下角,这些Token的价值就越好。
在这个例子中,我们可以看到在每用户约70 Tok/s以下,英伟达的机架规模系统,如GB200 NVL72,占主导地位,以最低成本提供最高数量的Token。但是,随着交互性增加,英伟达和AMD的较小系统变得更具成本效益。同样,这在很大程度上取决于你拉动哪些软件杠杆。这可能解释了为什么英伟达在Groq的知识产权和人才上烧了200亿美元。
这家芯片设计商的SRAM重型AI加速器在这些图表右侧的延迟敏感应用中表现出色。
不断变化的速度
硬件只有在其上运行的软件一样好,而软件正在快速改进。未能定期更新软件堆栈的推理提供商可能会损失大量性能。
"AI的最新技术非常是一个移动目标,"Salvator说。"我们继续优化我们的软件和硬件,试图解决最新技术。"
不到一个月前,AMD的MI355X加速器在SGLang推理框架中大幅落后于英伟达的同等芯片。
英伟达加速器之所以老化良好,部分原因是该公司的软件在出货后很长时间内继续提供性能提升。AMD也是如此,尽管软件工程人员少得多,但正在尽快提供性能优化。
以AMD的MI355X为例。在纸面上,该芯片大致匹配英伟达的B200和B300加速器。然而,截至2月初,英伟达的Blackwell GPU在SGLang中提供显著更高的性能。
不到一个月后,AMD已经大大缩小了与英伟达的差距,现在在某些情况下表现优于英伟达。然而,这是在运行SGLang的两个芯片之间的苹果对苹果比较。
AMD仍然有很长的路要走才能赶上英伟达的内部推理引擎TensorRT LLM。然而,鉴于AMD在不到一个月内取得的进展,我们不会对Zen之家也缩小这一差距感到惊讶。
"软件方面起到决定性作用。这是关于我们在哪种数据类型和哪种模型类型上投入多少脑力。进步的速度简直是每天都在发生,"AMD AI产品管理CVP Ramine Roane告诉El Reg。
更多杠杆可拉动
到目前为止,你可能已经注意到我们主要查看的是FP8的InferenceX数据。虽然英伟达和AMD的最新Blackwell和Instinct GPU提供原生FP4加速,但我们现在才开始看到以这种精度发布的模型。
OpenAI的GPT-OSS是首批使用MXFP4的主要开放权重模型之一。目前,大多数模型仍然以16或越来越多的8位精度发布,因为这已成为硬件支持的最小公分母。
这种情况可能会改变,因为推理的经济学强烈偏向较低精度。原因很简单;较小的模型权重需要更少的内存容量、带宽和计算来实现与较高精度模型相同水平的性能。
SemiAnalysis InferenceX结果很好地说明了这一点。从FP8到FP4的吞吐量和交互性跳跃可能是巨大的,但只有在该模型有优化内核可用的情况下。
不难看出为什么英伟达如此努力地推动Blackwell中的NVFP4支持。
但虽然FP4可能提供更好的吞吐量,但它是有代价的。量化,特别是在4位及以下,因为让模型"失去智能"而名声不佳。
"如果你的准确性损失太严重,加速就变得无关紧要了,"Salvator说。
然而,AMD和英伟达最新加速器支持的FP4数据类型使用一些巧妙的数学来大幅扩展可以表示模型权重的值数量,从16个增加到4000多个。
我们在去年GPT-OSS发布时更详细地研究了这一点,但简而言之,它涉及在模型权重块上使用比例因子来实现接近FP8甚至BF16的输出质量。
竞相到底的竞争
对于服务开放权重模型的推理提供商来说,Token是商品。对于服务这些的人来说,这是一场竞相到底的竞争,无论谁能以最低成本提供最理想的模型,或最高质量的Token,或最快的Token,都会胜出。
一些推理提供商,如Cerebras,已经利用其独特的硬件架构来提供"高端"低延迟Token。这为这家初创公司赢得了与OpenAI的合同,以每秒数千Token的速度为其GPT-5.3-Codex-Spark编码模型提供服务。
其他的,如Fireworks,已经开发了工具来帮助客户为其特定应用定制模型。"我们的设计点一直是定制化,"Fireworks首席执行官Lin Qiao告诉El Reg。
当Fireworks首次推出其调优平台时,开放和封闭模型之间的质量差距相当大,她解释道。监督微调等方法为客户提供了一种实现接近专有模型性能的方式,同时也将其公司的领域知识注入其中。
从那时起,开放权重模型取得了显著进步,Qiao解释道。"封闭和开放模型质量正在收敛是一个明确趋势,特别是在大语言模型空间,这使得调优变得更有吸引力。"
然而,即使是微调模型服务也正在快速成为商品。所有主要云提供商现在都提供类似服务,这意味着较小的推理即服务和新云提供商不仅需要不断优化其硬件和软件堆栈,还必须仔细思考如何将自己与其他竞争者区分开来。
Q&A
Q1:什么是Token经济学?它在AI推理中扮演什么角色?
A:Token经济学是指大规模AI推理的经济模型,核心原理是通过电力投入产出Token,目标是在给定电力下生成更多Token。它直接影响云服务提供商的收入,因为每瓦推理Token数量直接转化为经济收益。
Q2:为什么说并非所有Token都生而平等?
A:因为Token的价值取决于服务质量目标,包括首Token响应时间和用户交互性。批量Token成本低但速度慢,高端Token速度快但成本高,中间的"适中区域"提供平衡的性价比。
Q3:机架规模架构相比传统GPU配置有什么优势?
A:机架规模架构如英伟达NVL72能够在保持高用户交互性的同时不妥协吞吐量,特别适合高吞吐量和低交互性场景。但在高交互性场景下,传统八路GPU系统仍然具有85%或更好的性能表现且成本更低。