DeepSeek“开源周”启动
创始人
2025-02-24 14:17:10

2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。

上证报中国证券网讯(记者 谭镕)2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。

DeepSeek称,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000GB/s的内存带宽以及580TFLOPS的计算性能。”DeepSeek表示。

据介绍,MLA(Multi-Layer Attention,多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能‌。MLA通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构‌。

相关内容

热门资讯

原创 以... 中东战局正迎来决定性的转折,加沙地面的战斗仍在激烈进行,而黎以边境的交火愈加频繁。伊朗与以色列之间的...
春季花粉漫天飞,过敏人群该如何... 北京春季花粉浓度高峰是3月中旬至4月中旬,主要致敏花粉包括柏树、榆树花粉等,易感人群需提前防护。关注...
不跟风价格战,东风本田如何逆市... 2026年3月,东风本田与中国汽车融媒智库的一场闭门座谈,让外界得以一窥这家合资车企在价格战硝烟中的...