MindIE SD开源AdaBSA稀疏算法实现昇腾平台视图生成5x加速
创始人
2026-01-09 21:59:07

(来源:华为计算)

关于我们

在大模型推理中Attention的计算复杂度随序列长度平方增长,成为长序列场景下的主要性能瓶颈。针对此问题,昇腾MindIE SD团队联合2012实验室提出了Adaptive Block Sparse Attention(AdaBSA)稀疏算法,在128k场景下,相比全量Attention,AdaBSA在50%与90%稀疏率可以分别获得约1.76×和5.09×加速。

背景介绍

为了提升大模型在长序列场景的推理性能,业界提出一系列稀疏注意力算法,如 NSA、DSA、SpargeAttention、XAttention、FlexPrefill等。稀疏注意力算法一般包含稀疏预测和稀疏计算两个主要模块,通过识别并仅计算重要token来降低计算与数据搬运开销。针对昇腾平台的硬件计算特性,我们提出的AdaBSA算法在Q与K/V的序列维度上统一采用block粒度进行自适应稀疏筛选与计算,以充分发挥昇腾算力优势。

昇腾亲和稀疏Attention算子方案设计与优化

Block_wise稀疏粒度优化

在稀疏块大小选择上,我们以实现cube计算和访存带宽满载为目标,使数据搬运时延被计算过程充分掩盖。以昇腾800I A2为例,选择block_size等于矩阵乘基本块大小baseM & baseN = 128,能够充分发挥昇腾算力的优势。从带宽利用率上来看,在主流head_dim = 128的配置下,单次搬运token数达128时数据搬运带宽基本达到饱和(图2.1),综合以上两点,我们将block_size = 128作为稀疏块大小的典型值。

图2.1 800I A2单次数据搬运粒度与带宽利用率的测试

CV算力配比均衡优化

稀疏块预测包括评分与筛选两个阶段,其中筛选阶段为向量密集型操作,占用较多AIV资源,若分块方法采用业界常用的平均池化等向量运算,将进一步加重AIV负载,使执行进入vector-bound状态,抵消稀疏计算收益。为此,我们在稀疏块内引入预设采样路径的乘和操作,将评分计算映射至AIC的Cube运算,并与后续向量化筛选形成矩阵-向量双流水掩盖(图 2.2),从而有效降低稀疏预测对整体时延的影响。

图2.2 稀疏预测算子的计算流水示意左:基于池化的分块方式,右:基于采样矩阵乘的分块方式

基于稀疏块批量调度的tiling下沉优化

在硬件上执行稀疏注意力时,由于稀疏计算依赖于稀疏预测的选择,导致算子下发等待(图2.3左)。若将host侧分核算法直接下沉至kernel,则造成较高的标量指令开销,反而是负收益(图2.3中)。为此,我们引入批量化分核策略:以批量方式将k个最重任务分配给当前负载最低的k个AIV 核,并批量更新负载。该分核过程可由vector指令高效完成,避免device侧的标量瓶颈(图2.3右、图2.4)。

图2.3 算子下发与执行示意图图2.4 基于稀疏块的批量化LPT调度示意图

多模态生成Block稀疏算法方案设计与优化

注意力分布感知的稀疏策略

在稀疏块选择中,仅依据注意力分布形状难以充分筛选有效信息,还需考虑稀疏块之间的冗余性。为此,我们提出注意力分布感知的稀疏块筛选策略:首先基于标准Top-CDF按注意力分布形状进行初筛;随后根据相邻稀疏块的冗余度微调选择,从而实现稀疏块的自适应选择,控制稀疏度的同时提升筛选精度。

图3.1 形状感知的稀疏块筛选策略

迭代步数感知的稀疏策略

扩散模型通过多步迭代去噪,早期迭代的latent表示处于高噪声状态,开启稀疏Attention在迭代过程中易引发累计误差。为此,我们引入了扩散步感知的稀疏控制策略,通过分析扩散过程中的信噪比变化,当图像(或latent)完成约20%的去噪程度时,确认所对应的 DIT步数阈值 。在 后开启稀疏。

昇腾多模态生成稀疏推理验证分析

为评估AdaBSA的精度与性能,本文首先测试了AdaBSA单算子相比全量 Attention的性能收益,然后在多种主流多模态大模型(Wan2.2、HunyuanVideo-1.5、Qwen-image、Qwen-image-edit)上开展对照实验分析。

AdaBSA稀疏算子性能验证分析

图4.1展示了不同序列长度下,AdaBSA(包含稀疏预测和稀疏计算)在不同稀疏率设置下相对全量Attention的加速比。短序列(2k)且稀疏率为30%时,稀疏预测开销占比较高,AdaBSA无收益。随着序列长度增加,预测开销占比下降、稀疏计算收益放大,加速比持续提升;在128k场景下,50%与90%稀疏率分别获得约1.76×和5.09×加速。

图4.1不同输入长度下,Attention随稀疏率的加速比

视频生成推理性能与精度验证分析

图4.2、4.3分别展示了Wan2.2-I2V-A14B和HunyuanVideo-1.5在昇腾800I A2 8卡上生成一段720p和480p 5秒视频的结果,AdaBSA与全量Attention相比无明显差异。Wan2.2-I2V-A14B和HunyuanVideo-1.5经过embedding之后,token序列长度为75k和49k,在70%的平均稀疏率下,端到端加速比分别为1.70×和1.55×(表4.1)。此外,我们还测试了接入AdaBSA后在Vbench的得分,综合得分对比全量Attn如表4.2、4.3所示。

(a)基线:全量Attention(b)AdaBSA

图4.2 Wan2.2-I2V-A14B 图生视频

(a)基线:全量Attention(b)AdaBSA

图4.3 HunyuanVideo-1.5 文生视频

表4.1:Wan2.2-I2V-A14B与HunyuanVideo-1.5耗时统计表4.2:Wan2.2-I2V-A14B全量Attn与AdaBSA的Vbench评分表4.3:HunyuanVideo-1.5全量Attn与AdaBSA的Vbench评分

图像生成推理性能与精度验证分析

图4.4展示了Qwen-image在昇腾800T A2 2卡上文生图的结果,前两幅图主观无明显差异,后两幅图在文字排版上有细微差异。图4.5展示了Qwen-image-edit在同样设备上对输入原图进行编辑的结果,在不同prompt下,输出图像均无明显差异,clip score下降<0.3%。Qwen-image-edit和Qwen-image模型经过embedding之后,token序列长度为6k,在53%和50%的平均稀疏率下,端到端加速分别为1.13×和1.11×。

(a)基线:全量Attention(b)AdaBSA

图4.4 Qwen-image文生图

(a)原始图像(b)基线:全量Attention(c)AdaBSA

图4.5 Qwen-image-edit生成结果

表4.4:Qwen-image与Qwen-image-edit耗时统计

MindIE SD调用方式

AdaBSA已经集成进MindIE SD加速套件,可通过API调用:

1.安装MindIE SD组件:

cd MindIE-SDpython setup.py bdist_wheelpip install dist/*.whl

2.调用稀疏Attn接口,指定sparse_type="ada_bsa"

from mindiesd import sparse_attentionoutput = sparse_attention(q, k, v, scale=1.0 / sqrt(128),is_causal=causal,head_num=q.shape[1],input_layout="BNSD",inner_precise=1,sparse_type="ada_bsa",block_size=128,keep_sink=True,keep_recent=True,cdf_threshold=1,sparsity=0.7,)

整网调用示例和算子详细接口可参考:

https://gitcode.com/Ascend/MindIE-SD/wiki/稀疏Attention算子详设文档.md

总结

本文提出一种block-wise自适应的稀疏注意力方案(AdaBSA),在Q与K/V的序列维度采用统一分块策略,并结合CV配比均衡的稀疏块筛选与面向AIV的批量调度算法,提升稀疏预测与稀疏计算阶段的执行效率。同时引入注意力分布感知与迭代步感知的稀疏控制策略,在粗粒度block级稀疏下仍保持接近全量Attention的精度。单算子实验表明,AdaBSA对比全量Attention,随着序列长度增加,稀疏率增加,加速比持续提升,在128k场景下,50%与90%稀疏率分别获得约1.76×和5.09×加速。整网端到端实验表明,该方案在视频生成任务Wan2.2、HunyuanVideo-1.5等模型上,输出序列长度为49k-75k,实现1.55×-1.70×的端到端性能提升,Vbench六项指标满足要求,且人眼观察几乎无精度损失。在图片生成任务Qwen-image、Qwen-image-edit等模型上,输入序列长度为6k,实现1.1x-1.13x的端到端性能提升,clip score下降<0.3%,且人眼观察几乎无精度损失。欢迎广大开发者和客户使用我们AdaBSA加速特性

相关内容

热门资讯

创业要实方面存在的问题及整改措... 勇于创业,创成大业,不仅是三严三实的一项重要内容,也是验证领导干部是否有三严三实作风的重要指标。以下...
最新或2023(历届)少代会观... 【第一篇】  在春光明媚的日子里,我们迎来了国际六一儿童节,这一天,中国少年先锋队第七次全国代表大会...
最新或2023(历届)小学生看...  少代会观后感500字  今年“六一”国际儿童节我们全体少先队员们都共同收到了一份特殊的礼物,共同度...
第七次全国少代会观后感最新或2...  少代会观后感450字  今年的六月一日,是一个令无数中华少儿心潮澎湃的日子——迎来了第七次少代会。...
第七届少代会观后感600字 第...   【第一篇】  第七届少代会徐徐落幕,但敬爱的“习大大”的话却如黄钟大吕,时刻回响在我们耳畔。  ...