【华创通信】英伟达发布FY25Q4财报,DeepSeek开源周顺利落幕
创始人
2025-03-02 17:52:09

根据《证券期货投资者适当性管理办法》及配套指引,本资料仅面向华创证券客户中的金融机构专业投资者,请勿对本资料进行任何形式的转发。您不是华创证券客户中的金融机构专业投资者,请勿订阅、接收或使用本资料中的信息。本资料难以设置访问权限,若给您造成不便,敬请谅解。感谢您的理解与配合。

行情回顾。本周通信行业(申万)下跌了9.64%,跑输沪深300指数涨幅(-2.22%)7.42个百分点,跑输创业板指数涨幅(-4.87%)4.77个百分点。今年以来通信行业(申万)上涨了2.78%,跑赢沪深300指数涨幅(-1.14%)3.92个百分点,跑赢创业板指数涨幅(1.34%)1.44个百分点。本周通信行业涨幅(-9.64%)在所有一级行业中排序第27,全年涨幅排序第8。截至本周末,通信行业(申万)估值PE-TTM为33.69,同期沪深300 PE-TTM为12.55,创业板指数PE-TTM为33.54。本周通信板块涨幅前五分别为蜂助手(+50.13%)、恒为科技(+31.70%)、翱捷科技-U(+30.00%)、共进股份(+27.95%)、卓翼科技(维权)(+26.38%);本周通信板块跌幅前五分别为德科立(-33.91%)、博创科技(-26.27%)、太辰光(-24.91%)、瑞可达(-20.96%)、新易盛(-20.65%)。

训练及推理需求共同带动英伟达Blackwell增长,网络业务预计将在FY26Q1恢复增长。英伟达发布FY2025Q4业绩,实现收入393亿美元,同比+78%,环比+12%;实现GAAP净利润221亿美元,同比+80%,环比+14%;实现Non-GAAP净利润221亿美元,同比+72%,环比+10%。分不同业务看,数据中心为驱动增长的核心业务,最近一个季度收入占比达90%。

1)数据中心-计算:FY25Q4收入环比增长 18%,同比增长 2 倍多。训练方面,后训练和模型定制正在推动对 NVIDIA 基础设施和软件的需求。推理方面,在测试时间扩展和 OpenAI 的 o3、DeepSeek-R1 和 Grok 3 等新推理模型的推动下,推理需求正在加速。

2)数据中心-网络:FY25Q4收入环比下降 3%。英伟达正在从带有 InfiniBand 的小型 NVLink 8 过渡到带有 Spectrum-X 的大型 NVLink 72。Spectrum-X 和 NVLink Switch 收入增加且是新的主要增长点。预计将在FY26Q1恢复增长。

英伟达此前受限于新的机架式方案带来的工程等问题导致了整体出货节奏延迟,随着相关问题解决,Blackwell产品已恢复正常出货节奏。随着英伟达GB300等产品开始批量出货,及下一代Blackwell Ultra提上日程,有望持续带动对于1.6T及800G等高速率

(一)通信板块整体行情走势

本周通信行业(申万)下跌了9.64%,跑输沪深300指数涨幅(-2.22%)7.42个百分点,跑输创业板指数涨幅(-4.87%)4.77个百分点。今年以来通信行业(申万)上涨了2.78%,跑赢沪深300指数涨幅(-1.14%)3.92个百分点,跑赢创业板指数涨幅(1.34%)1.44个百分点。

本周通信行业涨幅(-9.64%)在所有一级行业中排序第27,全年涨幅排序第8。

(二)个股表现

本周通信板块涨幅前五分别为蜂助手(+50.13%)、恒为科技(+31.70%)、翱捷科技-U(+30.00%)、共进股份(+27.95%)、卓翼科技(+26.38%);

本周通信板块跌幅前五分别为德科立(-33.91%)、博创科技(-26.27%)、太辰光(-24.91%)、瑞可达(-20.96%)、新易盛(-20.65%)。

二、训练及推理需求共同带动英伟达Blackwell增长,网络业务预计FY26Q1恢复环比增长

英伟达发布FY2025Q4业绩,实现收入393亿美元,同比+78%,环比+12%;实现GAAP净利润221亿美元,同比+80%,环比+14%;实现Non-GAAP净利润221亿美元,同比+72%,环比+10%。

分不同业务看,数据中心为驱动增长的核心业务,最近一个季度收入占比达90%。

1)数据中心:第四季度收入达到创纪录的 356 亿美元,比上一季度增长 16%,比一年前增长 93%。FY25全年收入增长 142%,达到创纪录的 1,152 亿美元。Blackwell实现110亿美元收入,为英伟达历史上爬坡最快的产品。

2)游戏及AIPC:第四季度游戏收入为 25 亿美元,比上一季度下降 22%,比一年前下降 11%。全年收入增长 9%,达到 114 亿美元。

3)专业可视化:第四季度收入为 5.11 亿美元,比上一季度增长 5%,比一年前增长 10%。全年收入增长 21%,达到 19 亿美元。

4)汽车及机器人:第四季度汽车业务收入为 5.7 亿美元,比上一季度增长 27%,比一年前增长 103%。全年收入增长 55%,达到 17 亿美元。

训练及推理需求共同带动Blackwell增长,网络业务预计将在FY26Q1恢复增长。

1)数据中心-计算:FY25Q4收入环比增长 18%,同比增长 2 倍多。

训练:后训练和模型定制正在推动对 NVIDIA 基础设施和软件的需求。客户正在竞相扩展基础设施,以训练下一代尖端模型并解锁更高水平的 AI 功能。使用 Blackwell,这些集群通常有 100,000 个或更多 GPU,这种规模的多个基础设施已经开始发货。随着开发人员和企业利用微调强化学习和蒸馏等技术为特定领域的用例定制模型,后训练和模型定制正在推动对 NVIDIA 基础设施和软件的需求。后训练和模型定制的规模是巨大的,并且总共需要比预训练更多几个数量级的计算。

推理:在测试时间扩展和 OpenAI 的 o3、DeepSeek-R1 和 Grok 3 等新推理模型的推动下,推理需求正在加速。与一次性推理相比,长思维推理 AI 每个任务可能需要多 100 倍的计算。Blackwell 的架构用于推理 AI 推理。与 Hopper 100 相比,Blackwell 的token吞吐量提高了 25 倍,成本降低了 20 倍,增强了推理 AI 模型。许多早期的 GB200 部署都专门用于推理,这在新架构中尚属首次。

2)数据中心-网络:FY25Q4收入环比下降 3%。预计将在FY26Q1恢复增长。

英伟达正在从带有 InfiniBand 的小型 NVLink 8 过渡到带有 Spectrum-X 的大型 NVLink 72。Spectrum-X 和 NVLink Switch 收入增加且是新的主要增长点。我们预计网络将在FY26Q1恢复增长。AI 需要一类新的网络,NVIDIA 提供用于scale-up计算的 NVLink 交换系统,对于scale-out,公司为 HPC 提供Quantum产品、为以太网环境提供Spectrum X产品。Spectrum-X 增强了用于 AI 计算的以太网,并取得了巨大的成功。Microsoft Azure、OCI、CoreWeave 和其他公司正在使用 Spectrum-X 构建大型 AI 工厂。第一个 Stargate 数据中心也将使用 Spectrum-X。

英伟达此前受限于新的机架式方案带来的工程等问题导致了整体出货节奏延迟,随着相关问题解决,Blackwell产品已恢复正常出货节奏。随着英伟达GB300等产品开始批量出货,及下一代Blackwell Ultra提上日程,有望持续带动对于1.6T及800G等高速率光模块产品的需求,重点推荐新易盛、天孚通信、中际旭创,建议关注源杰科技。

三、DeepSeek开源周落幕,成本利润率可达545%

在本次开源周,DeepSeek陆续开放了五个代码库,向全世界分享了其在通用人工智能基础设施领域的最新突破。代码库涵盖大模型推理加速、通信优化、矩阵运算内核提升、并行计算效率改进、分布式文件系统五个关键领域:FlashMLA 通过低秩 KV 压缩技术减少推理内存占用,提升长文本推理效率;DeepEP 优化 MoE 模型通信,降低训练成本;DeepGEMM 实现高性能 FP8 矩阵计算,推动低精度计算转型;DualPipe和EPLB分别优化流水线并行和负载均衡,缩短大模型训练时间;3FS 则打破 “存储墙” 限制,为 AI 训练与推理提供高效数据支持。

本轮技术进步对推理和应用侧的推动作用都是显著的。在推理侧,它们提升了解码效率,降低了显存占用和硬件门槛,使大模型服务能处理更多并发请求,有效降低了企业的算力门槛;在训练侧,这些技术减少了训练时间和成本,提升了训练速度,让大规模模型训练更加高效。

1)FlashMLA:高效MLA解码内核

DeepSeek开源周首个项目FlashMLA是针对英伟达Hopper GPU的高效MLA(多头潜在注意力)解码内核,专为优化可变长度序列的推理服务设计。其核心原理借鉴了Flash Attention 2/3的架构,并通过低秩KV压缩技术减少推理时的内存占用,同时在H800平台上实现3000GB/s的内存带宽和580TFLOPS的计算性能。这种性能飞跃源于三大创新:首先,分页 KV 缓存使显存带宽利用率达到 98.7%,较 vLLM 提升 2.3 倍;其次,动态负载均衡算法将 GPU 流多处理器(SM)的空闲周期从 18% 压缩至 2.1%;最后,异步执行引擎成功将 GEMM 与 softmax 操作重叠,使计算单元利用率突破 75% 的理论极限。

这一技术更新直击AI商业化落地的核心痛点——长上下文处理带来的显存压力与计算成本。MLA(多头潜在注意力)技术通过重构KV缓存机制,实现了对长序列推理资源的精准管控。该方案创新性地采用64位BF16分页缓存设计,在H800 GPU上达成了3000GB/s的内存带宽利用率与580TFLOPS的峰值算力释放。在技术维度,其实测数据展现出颠覆性优势:在8K上下文长度的客服对话场景,单个H800 GPU的并发处理能力从120 QPS提升至692 QPS,响应延迟从 230ms 降低61%至 89ms,70B参数模型的单次推理成本更从0.0023美元骤降至0.0007美元。在行业生态层面,FlashMLA可直接集成到vLLM、Hugging Face Transformers等主流框架,使得中小团队无需重复搭建框架即可享受顶尖性能,大幅降低了AI应用的准入门槛。

2)DeepEP:MoE模型通信库

FlashMLA着眼于解决计算性能瓶颈,而DeepEP则聚焦MoE模型训练与推理中的另一个关键环节——通信。其原理通过高吞吐量的All-to-All GPU内核和异步通信-计算重叠技术,优化了NVLink与RDMA间的非对称带宽传输,支持FP8低精度操作和动态负载均衡。

DeepEP的核心创新在于解决MoE模型的通信瓶颈。MoE模型需要多个专家子模型动态协作,传统通信方式因数据量庞大且路径复杂,容易成为性能瓶颈。DeepEP通过两种技术突破:一是优化的全对全通信模式,将数据路由效率提升至接近硬件带宽极限;二是计算与通信的重叠机制,利用基于Hook的调度方法,在后台传输数据的同时,让GPU专注于计算任务,避免资源闲置。例如,在H800 GPU集群中,DeepEP通过未公开的PTX指令进一步挖掘了硬件潜力,使通信效率提升30%以上。这种设计如同为数据流动修建了“立体交通网”,既减少拥堵,又最大化硬件利用率。

DeepEP的诞生标志着MoE模型规模化部署的门槛显著降低。传统MoE训练中,专家并行(EP)的通信开销常占训练时间的40%以上,导致算力浪费。DeepEP通过优化通信流程,将这一比例压缩至可忽略水平,填补了MoE模型分布式训练的通信工具空白。其应用不仅限于MoE模型的预训练和推理预填充,还可扩展至多模态模型的参数同步场景。在训练侧,DeepEP通过减少通信开销使分布式训练成本下降30%,而推理侧的低延迟内核则使实时解码效率提升2倍以上。

3)DeepGEMM:FP8矩阵计算库

这一开源项目针对密集型和混合专家(MoE)模型的计算需求设计,尤其适配英伟达Hopper架构GPU,可实现高达1350+ TFLOPS的运算性能。DeepGEMM的核心代码仅约300行,采用轻量级即时编译(JIT)技术,无需预安装或复杂编译流程,在运行时动态生成内核,显著降低了使用门槛。此外,它支持多种矩阵布局,包括MoE模型中的分组运算,为复杂场景提供了灵活性。

DeepGEMM的技术突破源于对FP8计算特性的系统性重构。基于DeepSeek-V3研发的动态张量缩放技术,创新性引入Warp级两级累加机制,在保持数值稳定性的前提下,将Hopper张量核心的计算潜力充分释放。该库支持常规密集矩阵乘法与MoE分组计算双模式,通过单一内核函数适配任意矩阵维度,彻底消除传统方案中因矩阵形态变化导致的性能波动。在标准矩阵乘法场景下,相较于CUTLASS 3.3等传统方案,其在小批量数据处理(M=64或128)时实现最高达2.7倍的加速比,大矩阵任务中稳定提升1.18倍性能;在MoE模型的分组GEMM计算中,连续布局下的推理速度同步提升1.15倍。

工程实现上,其采用轻量化JIT运行时编译方案(体积减少80%),无需复杂预编译流程即可动态生成内核,显著提升云原生环境的弹性部署效率。性能验证表明,DeepGEMM在128×128至4096×4096矩阵范围的计算中持续保持高硬件利用率,成功应对MoE模型动态激活专家带来的负载波动挑战。单位计算能耗较BF16精度显著降低,有力促进千卡级训练集群的运营成本优化。作为首个完整支持Hopper Tensor Core特性的开源FP8库,其与PyTorch 2.0/TensorFlow 2.12的兼容性已在DeepSeek-V3生产环境中完成全链路验证,为行业提供了从芯片级优化到模型架构设计的协同增效案例。

这一技术对行业产生了两方面影响。首先,FP8作为新兴的低精度标准,正逐步推动AI计算从训练到推理的全流程效率提升。DeepGEMM的发布不仅验证了FP8在大规模MoE模型中的可行性,还通过开源生态降低了技术普及门槛,推动行业向低精度计算转型。其次,其轻量化设计(代码仅300行)为开发者提供了学习现代GPU优化的范例,尤其在模型参数量爆炸式增长的背景下,此类工具对降低算力成本至关重要。

在应用场景上,DeepGEMM已直接服务于DeepSeek自家的V3/R1模型训练与推理。例如,在大型语言模型的预填充和解码阶段,其计算性能较传统库提升最高达2.7倍,显著缩短了训练周期。对于MoE模型,分组矩阵乘法功能可高效处理多专家并行计算,适用于智能客服、代码生成等需要动态路由的任务。未来,该库还可扩展至图像识别、视频生成等领域的密集型计算,尤其是在需要实时处理高分辨率数据的场景中。

这项技术对训练与推理的影响尤为显著。训练侧,FP8将内存占用减少近半,允许更大批次的数据并行,同时Hopper GPU的算力优势使训练速度提升30%-40%。DeepGEMM通过稳定FP8训练流程,解决了此前业界普遍存在的“训练不稳定”难题。推理侧,其TFLOPS峰值达1350+,配合KV Cache的FP8量化,可使吞吐量提升约2倍。例如,在BERT等高精度模型推理中,FP8已实现4.5倍加速且精度无损。这些突破使得中小机构也能以更低成本部署大规模模型,推动AI技术普惠化。

4)DualPipe与EPLB:并行策略优化

第四日开源的DualPipe和EPLB分别针对流水线并行和负载均衡进行创新。DualPipe专注于优化分布式训练中的计算-通信重叠问题,通过双向调度策略减少硬件资源的空闲时间;EPLB则针对混合专家模型(MoE)的负载均衡场景,动态调整专家分布以避免GPU闲置。这两项技术均以代码库形式公开,并附带了详细的性能分析数据。

DualPipe的核心创新在于双向重叠计算与通信。传统流水线并行中,前向传播(Forward)和反向传播(Backward)需顺序执行,导致设备等待形成“流水线气泡”。DualPipe通过对称调度微批次(Micro-batches),让前向计算与反向梯度传输同时进行,使设备始终处于工作状态,气泡时间显著降低。EPLB则采用冗余专家策略,当某个专家负载过高时,系统自动复制其副本并分配到低负载GPU上,同时通过启发式算法将关联性强的专家部署在同一节点,既平衡计算压力又减少跨节点通信量。这种设计类似于交通调度系统,动态将“拥堵路段”的车流引导至空闲通道,确保整体路网高效运转。

这两项技术的意义在于突破大模型训练的规模化瓶颈。DualPipe通过减少50%的流水线气泡,有效隐藏了通信开销,直接降低了对昂贵GPU集群的依赖;EPLB则解决了MoE模型中专家负载不均导致的资源浪费问题,使得千亿参数模型的分布式训练成为可能。

具体到对推理侧和训练侧的影响。训练侧,DualPipe将传统单向流水线的“串行依赖”转化为并行流水,结合EPLB的专家动态分配;推理侧,EPLB的冗余专家机制可实时响应负载变化,在对话系统中实现毫秒级请求分发,而DualPipe的内存优化策略(如激活值复用)降低了边缘设备部署的硬件门槛。二者共同构建了“训练-推理一体化”的高效范式,为AI应用的工业化落地提供了关键技术支撑。举例来说,云计算中心可借助DualPipe加速大型语言模型的预训练,同时通过EPLB动态调配专家模块,应对突发性推理请求(如电商大促期间的推荐系统);边缘计算场景中,EPLB的层级负载均衡能力可在物联网设备集群中优化资源分配,而DualPipe的计算-通信重叠特性适合处理自动驾驶等实时性要求高的任务。

5)3FS:并行分布式文件系统 —— AI专属的分布式文件系统

DeepSeek在开源周压轴发布的3FS(Fire-Flyer File System)是一款专为AI训练与推理设计的高性能并行文件系统。该系统通过整合数千块固态硬盘(SSD)的存储能力和远程直接内存访问(RDMA)网络的全带宽,构建了一个分布式共享存储层。其核心功能包括支持数据预处理、检查点存储、KVCache查询等全流程操作,并在180节点集群测试中实现了6.6 TiB/s的读取吞吐量,相当于传统存储系统的数十倍性能提升。这一开源项目不仅包含文件系统本身,还配套了Smallpond数据处理框架,形成完整的AI数据基础设施解决方案。

3FS的技术核心在于两项创新:分离式架构和链式复制分配查询协议(CRAQ)。前者将计算节点与存储节点物理解耦,通过RDMA网络实现“位置无关”的数据访问,使得算力集群可以动态扩展而不受存储限制;后者则通过链式复制保障数据强一致性,每个写入操作需在多个存储节点形成确认链,同时利用分配查询机制优化读取效率,既避免数据冲突又降低延迟。这种设计类似于高铁站的智能调度系统:数据如同行李被精准分拣至不同区域,而计算节点则像高速列车无需停靠即可快速获取所需资源。

3FS对AI开发范式产生深远影响。在训练侧,其分离式架构打破了“存储墙”限制,使数据供给速度首次匹配上GPU算力增长曲线,让万亿参数模型的训练效率不再受制于IO瓶颈【“IO 瓶颈”是指在数据的输入(如从存储设备读取数据到计算设备)和输出(如将计算结果写回存储设备)过程中,由于设备性能、传输速度等因素导致的系统性能受限的情况。在 AI 训练中,IO 瓶颈会使数据无法及时供给到计算设备,导致 GPU 等计算资源空闲等待,从而降低训练效率】。在推理侧,强一致性保障下的KVCache机制,使得大模型服务可同时处理数万并发请求而不丢失上下文连贯性,为多轮对话、复杂推理场景提供技术底座。

此外,3月1日DeepSeek宣布了“One More Thing”,揭秘V3/R1推理系统,公开了大规模部署成本和收益。根据《DeepSeek-V3/R1推理系统概览》,假定GPU租赁成本为2美元/小时,总成本为87072美元/天;如果所有tokens全部按照DeepSeek R1的定价计算,理论上一天的总收入为562027美元/天,成本利润率为545%。我们认为五大代码库的开源为人工智能领域的进一步发展奠定了坚实基础,训练+推理侧硬件使用成本下滑下国内AI相关资本开支将有显著提振,国产算力景气度将进一步上行。建议关注国产GPU、服务器、交换机、光模块、高速铜缆等国产算力各细分产业链,重点推荐盛科通信,建议关注光迅科技、锐捷网络、华工科技、紫光股份、共进股份等。此外建议关注推理需求涌现带来的AIDC建设及规模化GPU算力及通信网络部署需求,重点推荐润泽科技,建议关注科华数据、世纪互联、光环新网

四、投资建议

运营商:重点推荐中国移动、中国电信、中国联通;

光模块光器件光芯片:重点推荐天孚通信、中际旭创、新易盛,建议关注光迅科技、源杰科技;

卫星通信:建议关注海格通信、震有科技;

液冷:建议关注英维克、高澜股份;

设备商:建议关注紫光股份、中兴通讯、锐捷网络、共进股份;

IDC&AIDC:推荐润泽科技、宝信软件,建议关注奥飞数据、光环新网、科华数据;

物联网模组:推荐广和通,建议关注威胜信息、有方科技;

控制器:推荐拓邦股份、和而泰;

军工通信:推荐七一二、上海瀚讯。

相关内容

热门资讯

三江口这一年 幸福在家门口“升... “走几步就能去植物园赏兰花,里面空气清新,走一圈浑身都舒服。以前坑坑洼洼的村道,变成了平整的柏油路,...
自贸港红利释放 海南入境游持续... (来源:千龙网)当我国北方冰天雪地时,地处热带的海南温暖如春,也迎来了一年之中最繁忙的冬日旅游旺季。...
A股调整,三大原因 今天上午,指数明显波动。上证指数盘中一度跌破4100点,最大跌超0.8%,之后迎来震荡修复,跌幅收窄...
“为和平而翱翔”飞虎队纪念展在... 中新社华盛顿1月19日电 (记者 陈孟统)当地时间19日,“为和平而翱翔”飞虎队纪念展在华盛顿华人博...
*ST立方停牌核查或因“实控人... 每经记者|胥帅    每经编辑|陈俊杰     1月19日,*ST立方(维权)因市...