来源:芝能汽车
随着AI大模型训练进入超大规模阶段,英伟达正在重新审视AI服务器集群中的电力架构挑战。尤其在GB200/GB300平台逐步部署的背景下,GPU峰谷负载带来的电源不稳定问题愈加突出。
为解决这一难题,英伟达通过电容、电池缓冲与GPU“刻录”等新手段,尝试构建一种更接近平均功耗的运行曲线,降低对电力基础设施的冲击。
在NVL72这一机架解决方案中,英伟达正从硬件和算法两端着手,将电源波动“平滑化”,以支撑未来更高密度AI计算系统的能效稳定性。
从“峰谷跳动”到“电力调和”:
GPU负载背后的电源问题
在AI训练集群中,英伟达的GPU硬件已成为算力中枢。但其带来的不仅是性能,还有突出的电力波动问题。
大模型训练本质上并非恒定负载,而是一种在短时高并发计算(如矩阵乘法)与中间通信、同步等相对空闲阶段之间快速切换的过程。这种“峰谷跳动”的负载模式,使得GPU集群整体功耗在单位时间内可能出现剧烈变化。
以英伟达最新一代GB300 NVL72为例,其内部集成了多个GPU节点,一旦任务调度触发多个GPU同时计算,其瞬时功率峰值将远高于平均值。
对于电网或本地供电系统而言,这种快速变化要求发电设备必须具备极高的响应速度,尤其是在依赖柴油发电机、燃气轮机等惯性较大的供电场景中,可能带来电源跟随失效、系统不稳甚至宕机风险。
英伟达在公开演示中明确展示了AI训练任务的功耗曲线。
在GB200与GB300平台上运行Megatron LLM时,直流输出仍有明显波动,而交流输入却趋于平稳。其间的关键,在于英伟达通过引入更多电容和电池缓冲,实现了输入侧的功率过滤与延迟响应。
这些装置能够在负载谷值时储存电能,在下一个峰值时再释放,以削弱对主电源系统的瞬时拉扯。
另一个更具争议也更巧妙的做法,是所谓“GPU刻录”。
通俗来说,这是一种在负载谷值期间故意维持GPU活跃的技术。通过刻意制造低强度负载填补空闲区间,拉平功率曲线,提升系统整体电源使用的均衡性。
这一思路与传统的“低负载节能”理念相悖,却在大规模系统中展现出新的合理性——尤其当电源系统的响应成本远高于GPU自身消耗时,牺牲部分能效换取系统稳定,反而更经济。
英伟达识别并公开了GPU峰值功耗带来的系统级挑战,通过电容、电池与负载管理策略,在NVL72等高密度机架方案中构建“平滑电源”能力。这不仅是硬件堆叠的延伸,更是数据中心级别能源架构演进的信号。
Part 2
NVL72与AI电力系统的协同设计:
从模块到机架的系统集成
英伟达 GB300 NVL72不仅仅是GPU的集群堆叠,更是一次从芯片到电源系统的整体性设计重构。
作为其内部服务器架构的一部分,NVL72在机架级别引入了可缓冲电池组、电容阵列以及更智能的电源管理模块,使得整个集群在运行过程中可以脱离对主电源瞬时供电能力的完全依赖。
在2024年OCP峰会上,英伟达首次展示了与光宝科技合作的NVL72样机,明确表明其内置了电池用于负载平衡。
这些电池并非作为主电源,而是作为一种电力“吸收器”和“释放器”存在。它们在系统负载波谷期储存剩余电力,在波峰期则反向释放,起到了“电能滑轮”作用。
大规模GPU集群在运行时已不再是传统服务器的负载模式,线性供电已难以满足其快速起伏的电力需求。而将供电系统与计算负载“解耦”,则成为一种更稳妥的设计思路。
英伟达的电源调度策略也在向软硬协同迈进。
除了硬件电容和电池的使用外,系统还通过软件算法对GPU任务调度进行预热、滞后分配、智能加载等操作,从而在负载层面“预测”功率曲线,提前调度电能。这种算法级的负载控制,有助于实现计算任务与电力输出的更好同步。
在输入侧,NVL72配备的电源管理模块具备更高的PFC(功率因数校正)效率,进一步压缩输入电网的电流波动。这在多机架、多节点并行部署的环境下,能显著减少汇流排与母线的负载跳变,保障整个数据中心电网的稳定性。
NVL72不仅在GPU计算能力上代表英伟达的最高水准,在电源系统上也已体现出向“能源感知型架构”转型的前瞻性。
从微观的电容电池到宏观的电源调度算法,英伟达构建的是一个可适应非平稳计算负载的系统性供电模型。
GPU性能的激增,不仅带来了推理速度的飞跃,也带来了供电压力的指数增长。尤其在规模化部署的大模型训练场景中,从“电力够不够”到“电力怎么供”成为行业必须面对的新问题。
英伟达 GB300 NVL72的电源平滑策略,既是对自身硬件生态的深化整合,也是对AI数据中心供能系统重构的实践样本。通过主动控制GPU负载形态、搭建缓冲电力系统,并引入预测调度与能耗平衡机制,英伟达正试图为AI集群找到一条更稳定、可持续的能源路径。
特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。