(来源:纪要头等座)
Agent到底对CPU带来怎样的需求
一、CPU在大模型推理中的作用
CPU在大模型推理中主要承担辅助角色,核心功能集中于数据预处理与系统稳定性调度。在推理的预填充(PROFILE)阶段,CPU负责用户PROMPT的文本规范化(如大小写、非法字符处理)、分词及TOKEN映射,将输入转化为GPU可接受的格式;同时,CPU需协调多模态数据处理,调用不同算子适配文本、图像等异构数据。在系统层面,CPU还承担集群硬件调度职责,包括网络、温度、性能占用监测及异常容错机制,保障AI集群稳定运行。整体来看,该阶段CPU不要求高并发能力,以逻辑调度和数据搬运为核心。
二、CPU在Agent中的核心作用
相较于大模型推理,CPU在Agent中从辅助角色转变为核心执行者,具体体现在三方面:
任务全流程主导:负责任务规划(如股票分析中的财报数据获取、指标计算)、工具调用(计算器、数据库)、多Agent协同(任务分配、资源冲突处理)及逻辑决策(工具调用正确性校验、敏感信息过滤)。
沙箱/虚拟机管理:Agent依赖硬件绑定的沙箱环境,与传统虚拟机不同,其数量与CPU核心强相关(一个核心通常支持2-5个沙箱),且需快速启停(控制在1秒内),依赖底层框架预装以减少启动耗时。
代码执行环境支撑:当前Agent解决问题的主流范式为“沙箱内代码执行”(如Claude通过代码处理PPT生成、数据计算等任务),需持续占用CPU内存资源,成为技术刚需。
三、Agent数量及长程任务对CPU需求的影响
长程任务占比是决定CPU需求的核心变量,具体表现为:
长程任务时长与资源占用:大模型记忆能力提升(如DeepSeek技术)推动Agent连续工作时间延长,2026年有望实现两天不间断运行,当前典型长程任务时长为2-4小时,需持续占用CPU资源。
CPU核心支撑能力:一个CPU核心通常支持2-5个Agent,轻量级任务可接近上限,复杂任务(如代码编写、多工具协同)可能仅支持1-2个。与传统虚拟机“无限创建”不同,Agent沙箱数量受硬(更多实时纪要加微信:jiyao19)件绑定限制,无法通过软件无限扩展。
四、技术创新对CPU需求的拉动
以DeepSeek的N-Gram技术为代表的创新,通过重构计算逻辑间接提升CPU需求:
GPU冗余计算转移:该技术构建动态“知识字典”,将常识性计算(如“肯德基与麦当劳对比”)从GPU转移至CPU,减少GPU对重复TOKEN的冗余计算,使万亿级模型参数量可拓展至2-3万亿级。
模型记忆能力提升:通过优化预填充阶段的TOKEN存储逻辑,释放GPU内存用于核心计算,同时增强Agent长程任务处理能力,进一步增加CPU在数据调度和预处理中的负载。
五、Agent任务对CPU负载的压力
Agent任务的多环节特性导致CPU负载显著上升,主要瓶颈与缓解措施包括:
负载来源:任务规划、工具调用、多Agent通信等环节需CPU深度参与,而CPU内存(DRAM)与GPU的HBM速度差异达15-20倍,导致数据传输成为瓶颈。
缓解路径:通过“异构+异步”架构,增加CPU数量分摊计算压力,减少GPU等待时间,例如将串行任务拆分为多CPU并行处理,降低整体负载。
六、Agent普及下CPU用量增长趋势及架构竞争
增长趋势:CPU用量增长介于线性与指数级之间,核心取决于长程任务占比与并发情况。短程任务可通过优化降低单位需求(如提升CPU利用率),但长程任务与高并发场景(如午间外卖Agent集中调用)将推动用量加速增长,预计每2-3年翻倍。
架构竞争:X86架构因软件生态优势(工具兼容性、编译器支持)主导Agent服务器市场,ARM仅在消费端本地任务(如手机Agent)有潜力。CPU用量增长主要依赖服务器数量增加,而非核心数提升,需同步优化缓存(L1/L2/L3)和IO接口。
七、CPU在内存调度及数据处理中的关键作用
CPU在内存与数据管理中不可或缺,具体包括:
冷热数据调度:协调HBM(热数据)与SSD(冷数据)存储,通过逻辑密集型计算实现数据填充、截断及分发,适配GPU异构需求。
向量化与预处理:负责将用户输入向量化后传输至GPU,同时处理Agent交互中的中间数据(用户输入1-2k TOKEN,中间计算可达20-50万TOKEN),需CPU与软件协同完成。
Q&A
Q1: Agent任务对CPU的负载程度如何?
A1:Agent任务对CPU的负载较大。在Agent运行过程中,任务规划、工具调用、多Agent协同及逻辑决策等环节均需CPU参与。由于CPU连接的内存、SSD速度远低于GPU的HBM(速度差异达15-20倍),在计算和通信需求下,CPU面临较大压力。为缓解压力,需通过异构架构和异步处理,让更多CPU参与计算以减少GPU等待时间。
Q2: 随着Agent的普及,未来CPU用量将呈线性增长还是指数级增长?CPU是否在对GPU进行高性价比替代?
A2:CPU用量增长取决于长程复杂任务的占比。短平快任务可能呈线性放缓增长,而长程任务占比提升将使CPU用量介于线性到二的幂次方增长区间(如四年内接近四倍)。目前CPU对GPU的高性价比替代尚未发生,更多是CPU补短板的过程:AI服务器中GPU不可替代,普通CPU服务器无法替代GPU;仅消费级终端场景下,经算子优化和量化的CPU可承担部分本地任务,但云场景下仍无法替代GPU。
Q3: 当前Agent对CPU的需求规模如何?长时间复杂任务的Agent是否需要增加CPU核数?
A3:单个CPU核心可支撑2-5个Agent,具体数量取决于任务复杂度,复杂任务可能仅支撑1-2个。当前无需增加CPU核数,而是通过增加CPU数量满足需求。但CPU的L1、L2、L3缓存容量等硬件瓶颈需通过自身迭代解决,增加数量无法弥补。
Q4: ARM与X86架构在未来竞争中的演变如何?在Agent任务中是否存在差异?
A4:当前X86架构在Agent任务中优势显著,其软件生态(如编译器、工具调用兼容性)强于ARM。Agent涉及的浏览器通信、搜索下载、代码处理等任务均依赖X86的生态支持。ARM可能在手机生态相关场景具备一定优势,但在Agent主流应用中,X86或类X86架构更占优。
Q5: 内存调度方面,CPU对内存是否存在较大需求拉动?
A5:内存调度对CPU需求有显著拉动。Agent需处理冷热数据分层存储(如HBM、SSD),涉及不同存储间通信及注意力形式存储,需CPU进行逻辑控制和数据处理。此外,大模型技术(如DeepSeek的N-gram)增加了存储复杂度,进一步提升CPU在内存调度中的参与度。
Q6: 向GPU传输数据时CPU的向量化处理是否拉动CPU需求?
A6:向量化处理确实拉动CPU需求。CPU需对数据进行填充、截断及逻辑密集型处理,以适配GPU数据格式。Agent任务中,用户输入与输出的Token量较小(约1-5千),但中间计算Token量可达20-50万,涉及大量CPU与GPU间的数据交互和包装处理,进一步增加CPU负载。
Q7: CPU用于小语言模型推理和训练的原理是什么?
A7:CPU可通过模型量化(如INT8、INT4低比特)和算子迁移实现小模型推理。将GPU算子转换至CPU并优化后,可在端侧/边缘设备运行几B至几十B参数的模型,但并行能力有限,仅支持少量并发。训练方面,CPU仅适用于极小模型,大模型(如几百B参数)无法通过此方式实现。
Q8: Agent并发数高的情况下,尽管存在优化空间,对CPU的需求是否依然较大?
A8:是的,高并发下CPU需求依然较大。简单任务在用户量小或分散使用时,优化空间较大,CPU增长可能低于线性;但高并发(如多企业集中使用)会降低优化空间,CPU需求接近线性增长。长程任务的高并发对CPU需求增长更显著,远超线性。
Q9: 简单Agent应用场景(如点外卖)在高并发时对CPU压力是否较大?
A9:是的,高并发时CPU压力较大。若简单任务(如点外卖)在集中时间(如中午)爆发,优化空间有限,即使单个任务占用CPU资源少(如0.1核),高并发仍会导致显著压力。若任务时间分布均匀,则优化空间较大,CPU压力可缓解。
Q10: Agent是否需要大量新的通用CPU服务器,而非AI服务器中与GPU配比的CPU?
A10:是的,Agent主要需求为通用CPU服务器。AI服务器因空间限制存储较少,而通用CPU服务器(更多实时纪要加微信:jiyao19)可挂载更多存储及独立存储服务器,满足Agent对存储和逻辑处理的需求。
Q11: 除英特尔、AMD外,CPU是否存在较多替代选项(如英伟达设计的CPU)?
A11:通用算力场景下,CPU替代选项有限,英特尔、AMD的X86架构仍占主导。通用CPU服务器需成熟生态支持(如稳定性、兼容性),X86在工具调用、编译器等方面优势显著。英伟达CPU主要用于CPU-GPU协同架构(如NVLink),与通用算力需求无关。信创等特定场景可能存在其他选择,但广义市场仍以X86为主。
免责申明:以上内容不构成投资建议,以此作为投资依据出现任何损失不承担任何责任。