转自:中国经营网
中经记者 李玉洋 上海报道
近日,英伟达CUDA迎来重大更新,正式推出NVIDIA CUDA 13.1,该公司AI开发者账号在社媒平台自我评价称:“这是20年来最大的一次更新。”
《中国经营报》记者了解到,全新的编程模型CUDA Tile是CUDA 13.1最核心的更新,它让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。
需要注意的是,CUDA Tile目前仅支持采用英伟达Blackwell架构的GPU产品,未来的CUDA版本将扩展支持更多架构的产品。多年以来,CUDA被称为英伟达稳固的护城河,然而,随着CUDA Tile编程模型的发布,引起了业界关于英伟达“护城河”是否会被削弱的讨论。
对此,曾主导设计AMD Zen架构芯片、苹果A系列芯片等知名芯片的架构师Jim Keller发帖称:“英伟达是要终结自己的护城河?如果英伟达像大多数其他硬件(公司那样)转向Tile模型,那AI内核将更容易移植。”
言下之意,不像过去的CUDA C++那样高度绑定英伟达硬件,CUDA Tile这种新的编程模型将改写GPU编程范式,开发者用Python代码可直接生成高效GPU内核,大大降低AI底层开发门槛,这可能会给AMD、Intel或新兴AI芯片公司提供切入机会。
“现在来看,底层更新对于应用基本没影响。”AI算法专家、资深人工智能从业者黄颂如此表示。他拥有丰富的CUDA生态应用开发经验,日常使用如PyTorch这些基于CUDA的高层库。黄颂进一步指出,短期内还看不到CUDA 13.1对于应用开发的积极影响,“传导需要时间,应用有更高层的接口。”黄颂表示。
改写GPU编程范式
据了解,CUDA的全称是Compute Unified Device Architecture(统一计算设备架构),是英伟达在2006年推出的一套并行计算平台和编程模型。
对于CUDA,一般开发者接触最多的是CUDA Toolkit(CUDA工具包),它是使用CUDA的核心载体,包含编译器、运行时API/驱动API、基础数学库(cuBLAS/cuFFT/cuDNN)等组件;CUDA已成为高性能计算和AI领域的“标配”,且仅支持英伟达GPU。
过去近20年,CUDA一直采用SIMT(单指令多线程)模型,开发者写代码时,需要手动管理线程索引、线程块、共享内存布局、线程同步,每一个细节都要自己操心。想要充分利用GPU性能,特别是用上Tensor Core这类专用模块,更是需要深厚的经验积累。
英伟达解释说,CUDA Tile可让开发者在高于SIMT的层级编写GPU核函数。在目前的SIMT编程中,开发者通常通过划分数据并定义每个线程的执行路径来指定核函数。
而借助CUDA Tile,开发者可以提升代码的抽象层级,直接指定被称为Tile的数据块。只需指定要在这些Tile上执行的数学运算,编译器和运行时环境会自动决定将工作负载分发到各个线程的最佳方式。
为此,英伟达构建了两个用于Tile编程的核心组件:一是CUDA Tile IR,一种用于英伟达GPU编程的全新虚拟指令集架构(ISA);二是cuTile Python,一种新的领域特定语言(DSL),用于在Python中编写基于数组和Tile的核函数。
为什么要为GPU引入Tile编程?
英伟达在博客中表示,随着计算工作负载的演进,特别是在AI领域,张量已成为一种基础数据类型。英伟达开发了专门用于处理张量的硬件,比如NVIDIA Tensor Core(TC)和NVIDIA Tensor Memory Accelerator(TMA)。
硬件越复杂,就越需要软件来帮助驾驭这些能力。CUDA Tile对Tensor Core及其编程模型进行了抽象处理,使得用CUDA Tile编写的代码能够兼容当前及未来的Tensor Core架构。
基于Tile的编程方式,允许开发者通过指定数据块(即Tile),然后定义在这些Tile上执行的计算来编写算法。至于怎么把这些运算映射到GPU的线程、Warp和Tensor Core上,编译器和运行时会自动搞定。
这种编程范式在Python等语言中很常见,有观点认为,CUDA Tile的出现改变了GPU编程,就像NumPy之于Python。
真正的护城河所在
此外,此次CUDA 13.1的更新还包括运行时对Green Context(绿色上下文)的支持、CUDA 多进程服务(MPS)更新等。
经过近20年的发展,英伟达已经在全球拥有500多万的CUDA生态开发者,该公司创始人兼CEO黄仁勋多次强调CUDA开发者是英伟达最重要的资产和竞争优势。“护城河不是芯片,是数百万开发者写下的代码惯性。”黄仁勋在2025年GTC大会演讲中提到。
2025财年数据显示,英伟达全球员工总数为36000人,较2024财年的29600人增长了21.62%。根据公开资料,虽然还无法提供官方确认的具体数字,但基于多方信息分析,英伟达CUDA团队规模约为2000—5000人,占总员工数的5%—15%。
近日,英伟达H200芯片能对华出口。对此,行业分析机构Omdia人工智能首席分析师苏廉节表示,短期来看,英伟达H200能对华出售这件事对英伟达自己更为有利,“中国还是一个相当大的市场,而且中国开发者也认可CUDA的生态”。
由于英伟达CUDA的生态壁垒,不少国内AI芯片公司采取了兼容CUDA的策略,以吸引开发者,比如摩尔线程、海光信息、沐曦股份、天数智芯、壁仞科技、芯动科技等,只是技术路线不同。
那么,看到CUDA Tile后,Jim Keller为什么说英伟达是否“终结了自己的护城河”?关键原因在于Tile编程模型不是英伟达独有的,AMD、Intel等芯片厂商的硬件,在底层架构上同样可以支持基于Tile的编程范式。
如果未来的主流GPU编程逐渐转向这种Tile-based方式,开发者一旦习惯了“写Tile、硬体自己优化”的模式,那同一套程序逻辑就更容易移植到不同的GPU硬件上,不像过去的CUDA C++那样高度绑定英伟达硬件,这可能会给AMD、Intel或新兴的AI公司提供切入机会。
“AI内核将更容易移植。”正如Jim Keller所说的那样。不过,英伟达也考虑了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性是建立在CUDA平台之上的。
因此,还有观点认为,表面上看,英伟达用Tile IR构建了一条更高阶的软件路径,专为AI负载设计,尤其适配Transformer、MoE等主流架构。这看似是对开发者的“解放”,实则是用“易用性”作饵,将开发者更深地引入其护城河。
从这个层面看,不管护城河是加深还是削弱,可有一点是确定的:未来,GPU编程的门槛大幅降低。过去,能熟练驾驭CUDA的开发者是稀缺的,而会写Python的人很多。
而CUDA Tile和cuTile Python打通了这个瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码。
未来真正的护城河,或许不再是芯片,而是那一行写得越来越顺手的Python代码。