DeepSeek“开源周”启动
创始人
2025-02-24 14:17:10

2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。

上证报中国证券网讯(记者 谭镕)2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。

DeepSeek称,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000GB/s的内存带宽以及580TFLOPS的计算性能。”DeepSeek表示。

据介绍,MLA(Multi-Layer Attention,多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能‌。MLA通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构‌。

相关内容

热门资讯

昆仑芯冲刺港股上市!三大梯队受... (来源:金融小博士)2026年1月1日,百度控股的昆仑芯(专注AI芯片研发的独角兽企业)正式向港交所...
联交所:自1月7日起取消德信中... 观点网讯:1月2日,香港交易所发布通告,宣布德信中国控股有限公司(以下简称“德信中国”)将被取消上市...
青岛年均办理外国人来华工作许可... 青岛日报社/观海新闻1月3日讯 “在审件办理中,认真细致,获国家局认可,为这位工作人员点赞!”日前,...
我军在台岛周边联合演练阵容显著... 近年来我军在台岛周边举行的联合演练,不单彰显了人民军队捍卫国家主权和领土完整的坚定决心,也在贴近实战...
夏海钧申请解封600亿港元资产... (来源:不良资产行业观研)1月2日,香港上诉法庭裁定,驳回恒大集团前行政总裁夏海钧提出的上诉许可申请...