| 平台/platform | 处理器 | 架构 | 厂商 | 定义 | 存储系统 | 指令 |
|---|---|---|---|---|---|---|
| CPU | X86 | Intel | L1Cache/L2Cache/L3Cache/DRAM | SSE | ||
| CPU | ARM | ARM | NEON | |||
| GPU | Intel | L1Cache/L2Cache/L3Cache/DRAM | SSE | |||
| GPU | Midgard/ Utgard | ARM | NEON | |||
| GPU | CUDA | 英伟达/NVIDIA | ||||
| FPGA(现场可编程逻辑门阵列Field Programmable Gate Array) | Intel | |||||
| FPGA | Xilinx |
| 平台/platform | AI处理器 | 厂商 | 定义 | 存储系统 | 指令 |
|---|---|---|---|---|---|
| NPU(神经网络处理器) | 华为海思 | 2017年,华为自研架构NPU采用3D Cube针对矩阵运算做加速,单位时间计算的数据量更大,单位功耗下的AI算力更强,实现数量级提升,实现更优能效。 | |||
| BPU(Brain Processing Unit) | 地平线 | 如果按照智能决策处理顺序,AI可以分成感知、建模、决策和规划三个阶段,基于这种分类,地平线也对应规划了名为高斯、伯努利和贝叶斯的三代BPU(Brain Processing Unit, 地平线自主设计研发的高效的人工智能处理器架构)架构。 | |||
| MLU(深度学习处理器) | 寒武纪 | 中科曙光在2018年宣布推出国内首款搭载寒武纪 AI 芯片的人工智能服务器「Phaneron」。Phaneron 主要面向深度学习的在线推理业务环境。在线推理业务不同于离线训练,推理不需要密集的计算能力,而是需要及时响应。因此,完成推理服务,需要大量的部署前端加速芯片以实时响应访问请求,对数据迅速作出判断。 |
NEON具有16个长度为128位的向量寄存器(这些寄存器以q开头,也可表示为32个64位寄存器,以d开头),可同时操作向量寄存器的16个字节,因此使用向量指令可获得更高的性能和带宽。
SSE是X86多核向量处理器支持的向量指令,
向量寄存器:具有16个长度为128位(16个字节)的向量寄存器,处理器能够同时操作向量寄存器中的16个字节,因此具有更高的带宽和计算性能。
AVX将SSE的向量长度延长为256位(32字节),并支持浮点乘加。
在不久的将来,Intel会将向量长度增加到512位。
由于采用显式的SIMD编程模型,SSE/AVX的使用比较困难,范围比较有限,使用其编程实在是一件痛苦的事情。
多核的每个核心里面具有独立的一级缓存,共享的或独立的二级缓存,有些机器还有独立或共享的三级/四级缓存,所有核心共享内存DRAM。通常第一级缓存是多核处理器的一个核心独享的,而最后一级缓存(Last Level Cache,LLC)是多核处理器的所有核心共享的,大多数多核处理器的中间各层也是独享的。如Intel Core i7处理器具有4~8个核,一些版本支持超线程,其中每个核心具有独立的一级数据缓存和指令缓存、统一的二级缓存,并且所有的核心共享统一的三级缓存。
下一篇:FUNIT