腾讯混元AI Infra核心技术开源,推理吞吐提升30%
创始人
2026-02-04 20:49:06

IT之家 2 月 4 日消息,腾讯混元 AI Infra 团队今日宣布推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops

该算子库宣称基于生产环境痛点,采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了性能突破。

▲ HPC-Ops 算子库架构图

在真实场景下,基于 HPC-Ops,混元模型推理 QPM 提升 30%,DeepSeek 模型 QPM 提升 17%。同时,在单算子性能方面,HPC-Ops 实现 Attention 相比 FlashInfer / FlashAttention 最高提升 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提升 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍。

在未来的发展规划中,HPC-Ops 将持续深耕大模型推理性能的突破方向:

  • 一方面,将重点研发稀疏 Attention 算子,针对性解决长上下文大模型的内存与算力瓶颈;
  • 另一方面,会拓展更丰富的量化策略,覆盖 4bit/8bit 混合精度等更多量化方案,进一步平衡推理速度与模型精度;
  • 此外,算子库还将布局计算-通信协同优化的内核,通过融合多 GPU 间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模大模型的高效部署提供底层支撑。

IT之家附 HPC-Ops 开源地址如下:

相关内容

热门资讯

这杯广东茶,在吉隆坡“火”了! 南方财经 21世纪经济报道特约记者 龙沁 吉隆坡报道 一泡醇厚的单枞茶,带着岭南特有的花果香,早已飘...
市十六届人大八次会议开幕 转自:邢台发布解放思想 奋发进取 为奋力谱写中国式现代化建设河北篇章作出更多邢台贡献市十六届人大八次...
多家上市公司回应太空光伏相关业... 转自:新华财经新华财经北京2月4日电(王媛媛) 2月4日晚间,晶科能源、双良节能、晶盛机电等多家上市...
调研速递|泰和新材接待国投瑞银... 2月4日,泰和新材集团股份有限公司(以下简称“泰和新材”)在公司会议室接待了国投瑞银基金、天风证券(...
我国已有3.6亿驾驶人成功申领... 今天(4日),市场监管总局联合工业和信息化部、公安部、交通运输部召开专题新闻发布会,公安部交通管理局...