炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:网易科技)
我知道现在风口是 AI ,自家产品不沾点 AI 都不好意思拿出手 —— 但你们这些 “ AIPC ” 的宣传,是不是有点过了?
不知道大家有没有关注最近的 PC 市场,很多处理器、笔记本都把 “ 我是 AIPC、有 NPU ” 放在商品页最显眼的地方,告诉你我这 NPU 提供了多少多少 TOPS 算力,能在本地跑多少多少 B ( 参数规模 )的大模型,很是唬人。
你买电脑的时候会不会格外在意这个配置呢 —— 好像在这颗小小 NPU 的加持下,你买的不是电脑,而是实打实的“ AI 终端 ”。
那这玩意真的有用吗?经过托尼的一番研究,发现这东西有用是有用,但不多。。。
我们先说厂商们吹得天花乱坠的 “ NPU ” 到底是个啥。
它的全称叫做 “ 神经网络处理器 ”,这顾名思义它一定跟 “ 神经 ” 有关系 —— NPU 是通过模仿人神经元和突触的运作方式,将存储和计算一体化,专门用于加速神经网络计算的处理器,主要是用在图像识别、语言处理这类应用。
它存在形态上一般有两种,消费级别的 NPU 一般是以集成的方式存在于处理器里,比如 AMD 、英特尔最新推出的 锐龙 AI 系列和 Ultra 系列处理器,都是在处理器芯片里单独划拉了一个区域去容纳 NPU 模块;还有一些数据中心和有智驾能力的车里也会有单独的 NPU 芯片做推理运算。
小鹏的图灵芯片就集成了 NPU
这里可能有小伙伴要问了:说到 AI 计算、推理,我们第一反应一般都是 GPU ,而现如今绝大部分笔记本电脑和手机的处理器里都有集成的 GPU —— 那为什么要放着原本就有的 GPU 不用,还得专门在不富裕的空间里给 NPU 单独腾出一个地方呢?
各家都卷 NPU 的理由说到底还是因为效率。记得之前我们也给大家讲过 “ LPU ”,它是专用于大语言模型的推理的芯片,相比 GPU 它的速度更快、功耗更低,而这个 NPU 也类似,它专门针对神经网络做了优化,天生就很适合做矩阵乘法,比如卷积运算。
说了这么多, NPU 到底有多强呢?
托尼找到了瑞典洛桑理工学院的一篇毕业论文,论文里曾经拉出了三种处理器:
笔记本电脑里的英特尔 i7-11800H 处理器来代表 CPU、 英伟达的 RTX 3070 Max-Q 显卡来代表 GPU,以及安卓开发板、高端电视机顶盒上常用的瑞芯微 RK3588 ARM 处理器,用它里边的内置的 NPU 代表 NPU 跑了 YOLOv5 系列模型,对比常见的 CPU、GPU 和 NPU 之间的性能和能耗表现。
论文最终的结论是:
虽然测试的 RK3588 集成的 NPU 绝对算力不是很强 ( 6 TPOS ) ,在某些项目的运算速度不如 GPU ,但能耗比相当出色,在这三者里属于一骑绝尘的水平。
这不嘛,最近有韩国的研究团队研究出的 NPU 技术,宣称比当下主流 GPU ,不仅运算速度快 60% 、耗电量还能节省 44% ,能大幅降低某些 AI 云服务的运行成本。
说到这里,厂商们跟进 NPU 的理由就很明显了,跑 AI 性能好、还省电,这样的东西谁不爱呢?
特别是手机厂商,要续航要轻薄,还想破脑袋要在手机这种寸土寸金的地儿卷出点差异化,那这东西他们肯定大大的要。
现在手机的 CPU 里集成 NPU ,提升响应的速度、降低网络延时和保护隐私,相比直接调用 GPU 来讲还会更省电。
落地到具体的应用里,不光可以在本地跑一些简单的大模型,能聊聊天给视频加点字幕啥的,还因为 NPU 符合多模态的 AI 发展的需求,用它也可以实现一些 “ 看世界 ” 的功能,分辨面前的物品、翻译外文的菜单等等。
除此之外,现在手机厂商不都爱卷影像嘛, NPU 可以加速计算摄影,比如人像虚化、夜景降噪、超分算法等等。
但理想很丰满,现实很骨感。。。尽管 NPU 的能耗非常出色,但在所谓的 AIPC 上,前提是得 “ 能用得上 ” :
实际上,现在在我们电脑上真正适配了、能够调用 NPU 的软件,一只手就能数得过来。
先说 Windows 这边,托尼去网上看了一圈,发现能利用好 NPU 的软件很多都是 Arm 版 —— 但大家都知道, Windows 这边用 Arm 架构的 PC 就不多,看看骁龙 X Elite 笔记本电脑们悲惨的销量就知道了。
传统 x86 处理器架构下能调用 NPU 的软件就更少了。
托尼统计了一下,有包括但不限于达芬奇、Capture One、Affinity Photo 2等软件的 AI 功能,目前无法利用 x86 平台 Windows 上的 NPU 进行加速。
Affinity Photo 2 对象选择功能,仅支持骁龙的 Hexgon NPU
而针对游戏玩家们的辅助工具,比如游戏加加、逗逗游戏伙伴这些,为了兼容性考虑默认都是优先调用 GPU 或者在云端处理信息,之后才是 NPU,并且像逗逗也是直接在官网列出来了只能使用英特尔的 NPU,不能使用 AMD 的 NPU。
换句话说,目前为止英特尔和 AMD 吹的热火朝天的 NPU 都属于空有算力、但是使用场景特别特别有限。
比方说,我找了一圈之后终于找到一个能在 x86 Windows 电脑上调用 NPU 的功能 —— 剪映的 “ 一键抠图 ” 。但由于抠图的任务还是比较轻量了,实际体验好像跟没有 NPU 的机型也拉不开什么差距。
我又找到 Premiere Pro 有一个 “ 音频分类 ” 的小功能可以用,但这更像是试水,我们的后期老师说除了那种影视行业的大制作,一般场景下也不会把音频分得这么细,实用性也挺有限。。。
并且托尼在跟后期老师研究软件各项 AI 功能的期间,我们特意把 Windows 上的性能监视器开着,观察 NPU 啥时候发力,很遗憾的是,它除了剪映一键抠图的时候会跳动那么一下以外,其他时间都静静躺在那边睡大觉,貌似世间一些纷纷扰扰都跟它无关。。。
不儿,要知道处理器为了集成这个 NPU 真的用了很大的面积,它在这摸鱼实在是说不过去。
下面是我找的一张 AMD AI 300 系列处理器的芯片内部结构图,大伙儿可以看到右上角 NPU 所占用的巨大面积 ——这么大一块我再放几个 CPU 或者 GPU 核心不香吗?
也就是说,有一些压根不需要 NPU 的游戏佬们,本来可以享受制程提升 + 核心堆砌带来的飞跃般性能提升,但却因为横空出了个 NPU ,所以就得掏更多的钱买更好的处理器和显卡,你这找谁说理去?
而且,即便是生态高度统一的 Mac ,它上头的 NPU 发展的也没那么好。
就拿 Mac 上的 Lightroom 来说,它有一段时间支持了 Mac 端的 NPU 本地去噪,但后来因为 bug 太多下架,目前的去噪功能主要还是靠 GPU 。。。
Adobe 社区里,大伙儿对于 NPU 的讨论
Mac 上的达芬奇支持一键去遮罩、去噪之类的 AI 功能,可以在软件设置里选择在 Apple Neural Engine ( 苹果 M 芯片的 NPU )上跑,但托尼打听了一下我们的后期老师,他们说这东西 bug 也挺多,几乎不敢用,怕影响到我们后期的工作流。
打听到这儿托尼仍然不死心,就托了一位后期老师帮我试一下在设置里分别打开 NPU 和 GPU 去跑,看一下速度上会不会有什么差别。
然而结果是。。。并没有什么区别。
实时预览速度都差不多
这是啥情况呢?我们找了一个监控 Mac 上的性能监控软件 asitop ,在选了 NPU 加速选项、 AI 功能运行的时候看了下 NPU 的使用情况 —— 无论我们怎么折腾各种魔法遮罩、去噪、智能字幕,NPU 使用率都为零,倒是旁边 GPU 忙得热火朝天。
我们又试了在 Windows 上会调用 NPU 的剪映 “ 一键抠图 ” ,您猜怎么着,Mac 上的 NPU 使用率仍然纹丝不动。
该不是性能监控软件坏了吧!而当我们打开 Mac 上的 Photo Booth ,NPU 的使用率却波动了起来。好好好,合着软件没问题,纯粹是你们把好钢用在刀把上了是吧。
说完 Windows 和 Mac 上的糟心事儿,还有很多常用的软件,比如 Photoshop ,压根儿不支持在任何平台上启用 NPU 进行 AI 功能加速。
在 Photoshop 官方文档中, 提及到了 Photoshop 会使用 GPU( OpenCL、D3D12、Metal )来加速视觉与 AI 功能,没有提及使用 NPU 的支持能力。
而它最近支持的那些炫酷的 AI 生成功能,则是跑在了云端。
一通打听、查资料下来,托尼觉得 PC 对 NPU 的支持程度只能用一个惨字形容。。。
换句话讲,电脑里多这么一个 xx TOPS 算力的芯片,其实并没有什么用。我知道有小伙伴会说省电这个优点我还没提,但说实在的,省的这点电在 PC 上,只能算是挠痒痒的 feel 。
最后给大家做个总结吧: NPU 在现阶段看来,用在手机上确实不错,既能省电,还可以在本地加速 AI 的计算,也很符合未来手机功能的发展趋势。
但这东西在 PC 上目前还是噱头大于实用的状态,很多应用场景并不刚需,体验更是拉不开差距。那么未来是不是人人都需要一台 AIPC 呢?托尼觉得还是得等更多的的主流软件去挖掘开发 NPU 的潜力,让它在擅长的领域充分发挥自己的能力。
不然要只是为了 AI 而去 AI ,还不如处理器卖我们便宜点。
撰文:小柳
编辑:米罗 & 面线