机器之心报道
编辑:冷猫
远在大洋彼岸的 Pytorch Conference 2025 全球开发者峰会已经走向尾声。
作为全世界最具影响力的深度学习开发者社区的重大活动之一,Pytorch Conference 最近收获了相当的关注度,展现了相当的社区活力。
SGLang 同样参加了Pytorch Conference 2025,核心成员Yineng Zhang 在大会做了相关分享。
而在同期的 10月25日,SGLang 联合美团,亚马逊云科技在北京开启了官方社区举办的国内首场Meetup见面会。
向读者们简单介绍下 SGLang。它起源于 RadixAttention,是由非营利组织LMSYS孵化的开源高性能的大语言模型和视觉语言模型推理引擎。它在各种环境中提供低延迟和高吞吐量的推理,从单个 GPU 到大型分布式集群。
SGLang 的核心特性包括:
这次见面会虽说是首次举行,但在会场中熙熙攘攘着 SGLang 的社区贡献者,开发者和学者,不乏来自各个知名公司、学校或组织的成员,进行激烈的思维碰撞,充分显现出 SGLang 在国内旺盛的社区活力和发展潜能。
四小时的 Meetup 时间有些紧张,十余位大模型领域的大咖和核心开发者们分享了各自领域的见解,在 SGLang 社区的最新贡献,未来的发展方向,以及采用 SGLang 在不同业务中的应用场景。
可以说是一场高密度的硬核的开源社区的思想碰撞。
无限进步的社区
见面会的开场由硅基流动 CEO 袁进辉进行欢迎致辞。
袁进辉老师真挚的分享了他自己的职业经历,回顾 AI Infra 工程师的职业发展,并且展望未来的 AI 时代机遇,AI infra 大模型推理仍然有很好的机会。
袁进辉老师提到,做算法和做 Infra 有显著的不同:
袁进辉老师结合自己的创业经历和深刻的思考,对于创业者,从业者的未来方向产生一些启发。
本次 Meetup 活动的上半场主要集中在 SGLang 推理架构的核心开发者的技术分享上。
SGLang 核心开发者尹良升,介绍了近期 SGLang 的技术进化的里程碑和未来路线规划。
尹良升老师着眼于架构技术进步,深度讲解了 KV Cache 分层缓存,Piecewise CUDA Graph,Spec Decoding 的重叠调度等 SGLang 的最新技术进展,能够实现不同程度的效率和兼容性优化。
在 Roadmap 部分,尹老师主要介绍了对广泛企业的支持,对各类软硬件的拓展兼容和稳定性。
随后,清华大学副教授章明星,以 Mooncake/KTransformers 与 SGLang 近期的合作进展和 2025H2 路标为主题进行了分享。
章明星老师详细讲解了集「快速传输」、「大量存储」和「易用」结合的高性能分布式 KV Cache 存储解决方案 Mooncake 与 SGLang 的 PD 分离技术相结合的工作,取得了良好的性能效果。
章老师介绍,与 SGLang 相整合的 HiCache 技术,通过多层次缓存管理(GPU、CPU、外部存储)与层页混合内存布局,结合重叠预取策略,大幅提升了 SGLang 在多 GPU 场景下的内存利用率与推理吞吐性能。
SGL 与 LLama-Factory 正在通过集成 KTransformers 实现从 CPU/GPU 混合推理 到 LoRA 微调 的全流程开源生态扩展,使大模型(如 DeepSeek、Kimi K2)在本地和多 GPU 环境下高效运行与微调成为可能。
该部分工作与趋境科技合作进行。
同时,在未来 Mooncake,KTransformers 也会有更多开源整合项目。
亚马逊云科技 EC2 产品解决方案架构师肖萍,以 SGLang 在纯 CPU 环境下的性能与优化研究为题做第三场分享。
肖萍老师讲道,SGLang 在 CPU 上运行适用于小型语言模型服务、传统机器学习任务,以及低成本的 MoE 模型推理;结合了 SGLang 在 CPU 环境下运行的挑战,通过优化调度、缓存复用、量化策略和底层指令级优化来提升性能、降低成本的应对方法。
除此以外,还特别提及了在单个模型,例如 DeepSeek 上的 CPU 优化方法。
上半场的最后,SGLang 量化负责人张鹏,介绍了 SGLang 的量化方案和未来路线。
张鹏老师详细讲解了 SGLang 的量化方案、量化模块和量化粒度相关的技术细节,介绍了 SGLang 目前支持的广泛量化类型,保证量化精度的三类技术方法。
同时,张鹏老师介绍了 SGLang 量化部分近期的工作:实现了 FP4 量化支持,W4AFP8 达成了实现;DeepSeekR1 和 V3 更容易单机部署;多硬件支持,并进行了代码重构工作。
未来的量化路线图聚焦于扩展应用范围、提升灵活性,并引入新型数据格式以进一步优化模型性能与效率。
受限于本文篇幅,我们不对技术细节进行过多的介绍,感兴趣的读者请参阅 SGL Project 相关页面:
广泛应用实践
见面会的第二部分主要集中在应用和实践方面,展现了 SGLang 在不同场景下的应用现状。
下半场的第一个分享来自百度搜索架构部负责人百度搜索杨文博,主题是 Ernie 4.5 适配与百度搜索的 SGLang 实践。
Ernie 4.5 即文心 4.5 系列开源模型,杨文博老师详细介绍了百度内部对于 Ernie 4.5 模型大规模部署的系统优化方案的实践:在架构、调度、计算和硬件兼容性上全面提升,实现高性能、跨平台的大规模推理部署。
此外,杨文博老师提到,在百度搜索场景中采用 SGLang 开始于 DeepSeek V3 的分布式推理复现,随后广泛应用于 LLM 推理、蒸馏和 RL 训练。搜索架构团队对 SGLang 做了一些例如特定模型优化、小卡优化和调度优化的技术工作。
关于文心 4.5 模型在 SGLang 的适配细节,请参阅:
在搜索场景上,腾讯专家工程师曹皓紧接着分享了 SGLang 在微信搜一搜的应用实践。
在微信搜一搜业务体系中,LLM 的应用包括:深度思考,快速回答,视频号前链,深度研究四个主要场景。
曹皓老师提到,搜索业务中的目标是在有限 GPU 下实现高吞吐量与低延迟推理,确保搜索与问答类场景具备「首字快、生成流畅」的用户体验,关注首字速度 TTFT 和生成速度 TPOT 的指标。而 SGL 昂为微信搜一搜提供了高性能的 LLM 推理支持。
曹皓老师详细的讲解了针对生成流畅度,降低 PD 分离的影响;长输入场景下 TTFT 的优化;长耗时流量负载均衡以及 PD 分离规模化部署的相关技术细节和实现流程。
在行业应用场景中,大模型在 NPU 上的适配运行是非常重要的一环。华为大模型优化算法专家秦正达分享了 DeepSeek V3.2 在 NPU 上的适配和优化实践。
在 DeepSeek V3.2 的部署方案上,通过对比 MHA + 稀疏掩码;MHA + 稀疏注意力以及 MQA + 稀疏注意力优化,最终选择了 MQA + 稀疏注意力的部署方案,实现了计算量、显存访问与执行效率的平衡,在长序列推理中显著提升性能与资源利用率。
同时,秦正达老师针对 PreFill 和 Decode 的并行策略进行分析,讲解了在 NPU 上的融合算子和算子优化的相关技术细节。未来规划聚焦在三大方向:低比特量化、KV 缓存下沉与 MegaKernel 并行优化,目标是通过软硬件协同进一步提升长序列推理性能与系统吞吐效率。
相关开源链接,请参阅:
SGL 即将在 Omni-Infer v0.6.0 版本中正式支持,通过 NPU 硬件亲和与极致性能优化,实现高效推理框架:
随后,Slime Project Leader 朱子霖,以及蚂蚁 AQ 团队成员李冀,有关 slime 的开发方向和应用做了分享。
朱子霖老师介绍了 slime 从 0 到 1 的发展,经历了从灵活高效的训练架构设计,到构建公司与开源社区共建共赢的训练生态,实现了技术与社区的双向循环成长。
slime 的目标是构建符合初心的,世界最好的后训练框架。站在 Pytorch 巨人的肩膀上,Pytorch 是深度学习框架,在 GPU 上跑得快,还能反向,那么 slime 的目标就是:是 RL Scaling 框架,能训的快并且支持各种数据生成逻辑。
李冀老师介绍了 slime 落地 AQ 医疗的应用范式,训练流程,以及多智能体训练的性能优势。
slime 在 AQ 医疗场景中实现了多轮交互与多智能体协同训练的强化学习系统,使医生与患者模型通过对话共同提升表现,实现智能医疗问答的真实落地。
slime和AQ相关开源链接,请参阅:
最后登场的是本次 Meetup 活动主理人,SGLang 核心开发者王超,分享了 Specforge 框架的最新进展。
Specforge 是由 SGLang 团队推出的开源投机采样模型训练框架,旨在加速大语言模型推理,目前已应用于美团、英伟达、Google、蚂蚁等企业的大模型优化。Specforge 和 SGL 完全结合,开箱即用。Specforge 的核心特性,包括提供了对 TTT 的原生支持,支持 Eagle 3;在线与离线的训练管线等等。
王超老师介绍了 Specforge 的近期亮点,包括达到了 SOTA GPT-OSS 性能;采用 Flex Attention 实现了高达 10-20 倍显存节省;支持 VLM,成为业界第一个对 VLM 做投机采样的工作,以及对 LoRA 的支持。
在未来,Specforge 开源计划将聚焦于训练加速、Eagle3 模型生态扩展,以及更先进的推测解码算法的研发,持续提升模型推理效率与生态兼容性。
总结
热情的社区成员,令人兴奋的工作,引人期待的 Roadmap,广泛的应用,正是一个良性循环的,高活力的开源社区应有的模样。
这是国内第一次 SGLang 社区的 Meetup 活动,却已足够令人感到着迷。希望未来,社区能够更加枝繁叶茂。
SGL 打满!
参考链接:
https://github.com/sgl-project/sglang
https://x.com/PyTorch/status/1981777035207868492