DeepSeek“开源周”启动
创始人
2025-02-24 14:17:10
0

2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。

上证报中国证券网讯(记者 谭镕)2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。

DeepSeek称,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000GB/s的内存带宽以及580TFLOPS的计算性能。”DeepSeek表示。

据介绍,MLA(Multi-Layer Attention,多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能‌。MLA通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构‌。

相关内容

热门资讯

邮报:卡拉格穿拖鞋被夜店拒门外... 据《每日邮报》报道,正在伊比萨度假的利物浦名宿卡拉格因穿人字拖被夜店拒之门外,他临时购买一双不合脚的...
龙游项目建设工地错峰抢进度 转自:衢州日报  本报讯 (通讯员 叶绿丹然) 7月7日清晨,在龙游瑞星新能源标准厂房项目工地上,工...
最新或2023(历届)南京大屠...   最新或2023(历届)2月25日,十二届全国人大常委会第七次会议25日下午审议全国人大常委会关于...
最新或2023(历届)南京大屠...   12月13日是首个南京大屠杀死难者国家公祭日,当天上午,党和国家领导人将出席在侵华日军南京大屠杀...
最新或2023(历届)关于南京...   南京大屠杀是日本侵华战争初期日本军国主义在中华民国首都南京犯下的大规模屠杀、强奸以及纵火、抢劫等...