2025年以来,生成式AI的一个主要趋势便是向边缘侧快速渗透,AI手机、AI PC、AI眼镜、AIoT等应用的热度不断提升,乃至有人将2025年定义为边缘生成式AI的应用元年。然而,在边缘侧潜力被不断挖掘的同时,网络延迟、数据安全以及隐私保护等问题也逐渐凸显。这需要不断推进硬软件技术的进步,以满足AI 模型市场新的需求。在此情况下,一场围绕边缘AI处理器的架构卡位战悄然打响。
2025,边缘 AI 将成行业新宠
生成式AI的快速发展为诸多行业带来新的机遇,当下有众多企业加速布局边缘AI。据调研机构Gartner预测,到2026年80%的全球企业将使用生成式AI,50%的全球边缘部署将包含AI。边缘AI是一种通过设备本地化处理数据的技术,无需依赖云服务器。其算法被直接部署在智能手机、传感器或物联网设备上,从而实现快速决策、增强数据隐私、减少带宽消耗等多重优势。
英特尔中国网络与边缘事业部总经理阮伯超在此前接受记者采访时表示,人工智能与边缘计算的融合将更加深入,边缘设备将具备更强大的智能处理能力,能够实时、高效地对海量数据进行处理和分析,大大减少了数据传输的延迟和带宽压力。Imagination中国区技术总监艾克也指出,边缘 AI 凭借独特的技术架构与部署模式,在安全隐私、实时响应、能源效率等领域展现出显著优势,成为推动智能化变革的关键力量。
在安全隐私层面,边缘AI将数据处理从云端下沉至本地设备或边缘节点,数据无需长途传输至远程服务器,有效降低了数据在传输过程中被截获、篡改或泄露的风险。尤其在医疗、金融等对数据保密性要求极高的领域,敏感信息可在本地完成分析处理,数据的安全性更高。
在实时要求方面,边缘AI无需等待数据往返云端,直接在边缘侧完成分析与指令输出,极大缩短了延迟,对即时响应要求更高的场景,如工业自动化、智能交通等领域,可以确保任务的高效执行,满足对实时性的苛刻要求。
在能源效率与可持续发展方面,边缘AI减少了数据的长距离传输与云端大规模计算,可以降低能耗。数据中心的冷却、服务器运行等环节均需消耗大量电力,边缘AI分布式处理数据的模式,减少了对高能耗云端计算资源的依赖。
NPU、GPU、FPGA,硬件架构卡位战打响
随着边缘AI市场的扩展,一场围绕硬件架构的卡位战也在悄然打响。NPU,即神经网络处理器,是专为人工智能计算设计的芯片,在处理神经网络算法时展现出极高的效率。在生成式 AI 向边缘侧快速发展的浪潮中,NPU企业凭借其独特的优势积极布局,抢占市场先机。
许多MCU企业如瑞萨、恩智浦、意法半导体等,在推出面向边缘AI市场的产品时,均选择集成NPU。
例如,STM32N6是意法半导体STM32系列中首款具有AI加速能力的高性能MCU,集成1 GHz主频NPU,计算性能可达600 GOPS,可为计算机视觉和音频应用提供实时神经网络推理能力。“随着MCU的算力增强,过去一些跑在SoC上面的应用也可以跑在MCU上。这样可以拉低用户BoM成本,减少外围器件,设计的复杂性也会随之降低。”意法半导体中国区微控制器、数字IC与射频产品部 (MDRF) 微控制器产品市场经理丁晓磊表示。
GPU 最初是为图形处理而设计,其强大的并行计算能力在云端AI加强领域有着表现卓越。随着边缘市场的发展,移动GPU企业也在扩展边缘AI市场。近日,Imagination公司推出新一代E系列GPU IP,可以支持从2 TOPS到200 TOPS(INT8精度)的AI工作负载。Imagination还嵌入新型Burst Processors(爆发式处理器)。根据Imagination公司产品管理副总裁 Kristof Beets介绍,这一设计改变了原本的GPU指令调度方式,在执行爆发式的数据处理时,所有计算会优先尝试利用爆发处理器的能力,尽可能实现复用,减少计算开销,平均功耗效率可以提升35%。
Altera于4月14日从英特尔独立,重新成为全球最大的独立FPGA半导体解决方案公司。独立后的Altera可获得更大的自主性,将深耕数据中心与边缘AI推理等市场。FPGA作为一种可重构的集成电路,具有灵活性高、并行处理能力强、可扩展性好等优势,在边缘AI领域有着很多应用优势,可以根据不同的应用需求进行硬件逻辑的重新编程,实现定制化的计算加速。
移动GPU vs NPU,既有优势也有痛点
作为专为AI计算设计的神经网络处理器,NPU在处理神经网络模型时具有很多优势,如高效能、低延迟,以及更高的成本效益等,特别是对于一些对实时性要求较高且相对固定的应用场景,如智能安防、可穿戴监测等,使用 NPU 可以在保证性能的同时,降低硬件成本。但是,这也反映出NPU存在的部分局限性,如功能相对单一、编程难度较大等。
“NPU与我们新推出的E系列GPU之间,一个重要的区别就在于——NPU 是为支持一些特定AI应用而设计,一旦出现了新的应用,NPU处理不了,这项任务就不得不被交给CPU去处理,CPU在处理这些交回的任务时往往会产生较大延迟,对性能的影响较大。”Kristof Beets表示。而GPU的通用性更强,从原则上讲,移动GPU不存在某个处理不了的AI任务,也就不会出现不得不交给其他的处理单元兜底的情况。这对用户应对快速更新迭代的AI行业十分重要。
此外,GPU在软件工具与生态上也更具优势。目前 NPU 的编程框架和开发工具相对较少,且不同厂家的 NPU 架构和指令集差异较大,开发者需要针对具体的 NPU 进行专门的开发和优化,这增加了开发的难度和成本。GPU有更成熟的编程框架和开发工具,行业内熟悉GPU编程的人才也更多,这使GPU在AI生态系统上拥有一定优势。
存算一体,竞逐边缘AI新势力
值得关注的是,新一代存算一体技术正在崭露头角,也为边缘AI领域带来了更多极具潜力的应用方向。有业内专家指出,传统的冯・诺依曼架构在面对日益增长的 AI 计算需求时,遭遇了“存储墙”难题,数据在存储单元与计算单元之间频繁搬运,不仅耗费大量时间,还导致能耗大幅增加,严重制约了计算效率的提升。存算一体技术则通过将存储和计算功能紧密集成在同一芯片上,有效规避了这一问题,为边缘 AI 发展开辟了新路径。
边缘设备通常受限于能源供应,对功耗要求极为严苛。存算一体技术让数据在存储位置附近即可完成计算,大幅减少了数据传输过程中的能耗。以智能安防摄像头为例,这类设备需实时处理大量视频数据以进行目标检测和识别。运用存算一体技术,摄像头可在本地高效运行 AI 算法,快速分析视频流中的人物、车辆等目标,同时降低设备整体功耗,延长电池续航时间或减少外接电源的依赖,尤其适用于一些难以布线供电的户外监控场景。
目前已有多家国内企业推出面向边缘AI应用的存算一体产品。如知存科技已量产旗下存算一体SoC芯片WTM2101,从几十Mops到几Gops,功耗低至亚毫安,还能同时运行多个深度学习算法,适用于语音识别、语音增强、健康监测、环境识别、远场唤醒、事件检测等多个应用场景。
苹芯科技近日面向终端侧模型,推出基于SRAM的存算一体NPU IP N30,用户基于NPU可以打造端侧SoC、MCU等产品,动态精度引擎支持4-16bit混合精度,语音模型量化后精度损失<3‰,单核0.5TOPS,十六核集群可达8TOPS。
后摩智能推出的后摩漫界M30 芯片,算力达到100TOPS,功耗仅12W左右,每瓦特计算效率高达7 - 8TOPS 。亿铸科技自研的YICA软件栈,不仅支持算子的“一键生成”和“自动优化”,还能兼容现有主流深度学习框架,大幅降低了大模型部署和迁移成本。
总之,边缘AI作为一个新兴的应用市场,正吸引不同架构、不同阵营的厂商进入。随着未来市场规模的扩大,不同的解决方案之间的角力也将全面展开。