DeepSeek“开源周”,连续掏出两大核心武器
创始人
2025-02-25 12:01:33

今天是DeepSeek“开源周”第二日,DeepSeek宣布开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。

昨天,DeepSeek则开源了代码库Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,针对可变长度序列作了优化。

MoE(混合专家架构)和MLA(多头潜在注意力机制)被认为是DeepSeek以低成本实现杰出表现的核心原因。

简单理解,MoE架构是由多个专注于垂直技能的专家模型分工协作来实现最终输出结果,训练成本和推理成本更低。有消息称,GPT-4就使用了MoE架构,由8个220B模型组成。但MoE架构的缺点之一是会增加通信成本。

DeepEP通信库就是针对通信环节的优化,其特点包括:高效、优化的全员沟通;节点内和节点间均支持 NVLink 和 RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生 FP8 调度支持;灵活的 GPU 资源控制,实现计算-通信重叠。

MLA则是让模型预测更远位置的token,从而增强语义理解能力。DeepSeek的Flash MLA专为英伟达Hopper GPU打造了高效MLA解码内核,特别针对变长序列进行了优化。

相关内容

热门资讯

生物系统工程专业就业方向有哪些...   最新或2023(历届)生物系统工程专业就业方向有哪些?  太阳教育网,某名企人力资源总监曾先生表...
最新或2023(历届)山东警察... 山东警察学院位于山东省省会--济南市,创建于1946年,是中国共产党历史上创建的第一所警察学校。60...
最新或2023(历届)青岛大学... 青岛大学是山东省属重点综合大学,山东省与青岛市共建高校,山东省首批应用基础型人才培养特色名校建设单位...
最新或2023(历届)南昌理工... 南昌理工学院是教育部批准设置的普通本科高校,学士学位授予权单位。校园占地面积4000余亩。目前已建校...
最新或2023(历届)江西服装... 江西服装学院是经国家教育部批准设立的全日制普通本科高校,是一所面向时尚行业,以培养创意设计、工程技术...