刚刚!DeepSeek开源FlashMLA,推理加速核心技术
创始人
2025-02-24 17:46:28
0

Datawhale分享

开源周:Day 01,编辑:机器之心

上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。

第一个项目,果然与推理加速有关。

北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。

该项目上线才 45 分钟就已经收获了超过 400 star!并且在我们截图时,Star 数量正在疯狂飙升。

项目地址:https://github.com/deepseek-ai/FlashMLA

众所周知,MLA是 DeepSeek大模型的重要技术创新点,主要就是减少推理过程的KV Cache,从而实现在更少的设备上推理更长的Context,极大地降低推理成本。

此次 DeepSeek 直接开源了该核心技术的改进版本,可以说是诚意满满。

接下来,就让我看下这个开源项目的核心内容。

据介绍,FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化。

目前已发布的内容有:

  • BF16

  • 块大小为 64 的分页 kvcache

其速度非常快,在 H800 SXM5 GPU 上具有 3000 GB/s 的内存速度上限以及 580 TFLOPS 的计算上限。

在部署这个项目之前,你需要的有:

  • Hopper GPU

  • CUDA 12.3 及以上版本

  • PyTorch 2.0 及以上版本

快速启动

  • 安装

pythonsetup.pyinstall

  • 基准

pythontests/test_flash_mla.py

使用 CUDA 12.6,在 H800 SXM5 上,在内存绑定配置下实现高达 3000 GB/s,在计算绑定配置下实现 580 TFLOPS。

  • 用法

fromflash_mla importget_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata (cache_seqlens, s_q * h_q //h_kv, h_kv)

fori inrange (num_layers): ...o_i, lse_i = flash_mla_with_kvcache (q_i, kvcache_i, block_table, cache_seqlens, dv,tile_scheduler_metadata, num_splits, causal=True,)...

该项目发布后也是好评如潮。

甚至有网友打趣地表示:「听说第五天会是 AGI」。

最后,还是那句话:这才是真正的 OpenAI

相关内容

热门资讯

读《我与齐哥》:感受一人一猴的... 转自:中国妇女报  相信很多小朋友都喜欢聪明的猴子,但有与猴子长时间亲密接触经历的孩子少之又少。最近...
最新或2023(历届)关于端午...   端午节资料:端午节的食俗习惯  1.吃粽子  “粽子香,香厨房。艾叶香,香满堂。桃枝插在大门上,...
最新或2023(历届)六一儿童...   国际六一儿童节的由来  儿童节,也叫"六一国际儿童节",每年的6月1日举行,是全世界少年儿童的节...
最新或2023(历届)六一儿童... 儿童节的由来  六一儿童节,也叫“六一国际儿童节”,每年的6月1日举行,是全世界少年儿童的节日。  ...
陕西12条水泥熟料生产线年生产... (转自:水泥网APP)7月10日,陕西省工信厅发布”关于生产时间按照330天、270天计算的水泥熟料...