大模型优秀大脑齐聚硬核开源聚会，SGLang社区举办国内首次Meetup_知识

大模型优秀大脑齐聚硬核开源聚会，SGLang社区举办国内首次Meetup

创始人

2025-10-28 16:45:12

机器之心报道

编辑：冷猫

远在大洋彼岸的 Pytorch Conference 2025 全球开发者峰会已经走向尾声。

作为全世界最具影响力的深度学习开发者社区的重大活动之一，Pytorch Conference 最近收获了相当的关注度，展现了相当的社区活力。

SGLang 同样参加了Pytorch Conference 2025，核心成员Yineng Zhang 在大会做了相关分享。

而在同期的 10月25日，SGLang 联合美团，亚马逊云科技在北京开启了官方社区举办的国内首场Meetup见面会。

向读者们简单介绍下 SGLang。它起源于 RadixAttention，是由非营利组织LMSYS孵化的开源高性能的大语言模型和视觉语言模型推理引擎。它在各种环境中提供低延迟和高吞吐量的推理，从单个 GPU 到大型分布式集群。

SGLang 的核心特性包括：

快速后端 Runtime：提供高效服务，支持 RadixAttention 前缀缓存、零开销 CPU 调度器、预填充 - 解码解耦、推测性解码、连续批处理、分页注意力、张量 / 流水线 / 专家 / 数据并行、结构化输出、分块预填充、量化和多 LoRA 批处理。
广泛模型支持：支持多种生成模型（Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等）、嵌入模型（e5-mistral、gte、mcdse）和奖励模型（Skywork），并易于扩展以集成新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
广泛的硬件支持：可在 NVIDIA GPU、AMD GPU、Intel Xeon CPU、Google TPUs、华为昇腾 NPU 等硬件上运行。
灵活的前端语言：为 LLM 应用程序提供直观的编程界面，支持链式生成调用、高级提示、控制流、多模态输入、并行处理和外部交互。
活跃的社区：SGLang 是开源项目，并得到充满活力的社区支持，在行业内得到广泛采用，全球范围内为超过 30 万块 GPU 提供支持。

这次见面会虽说是首次举行，但在会场中熙熙攘攘着 SGLang 的社区贡献者，开发者和学者，不乏来自各个知名公司、学校或组织的成员，进行激烈的思维碰撞，充分显现出 SGLang 在国内旺盛的社区活力和发展潜能。

四小时的 Meetup 时间有些紧张，十余位大模型领域的大咖和核心开发者们分享了各自领域的见解，在 SGLang 社区的最新贡献，未来的发展方向，以及采用 SGLang 在不同业务中的应用场景。

可以说是一场高密度的硬核的开源社区的思想碰撞。

无限进步的社区

见面会的开场由硅基流动 CEO 袁进辉进行欢迎致辞。

袁进辉老师真挚的分享了他自己的职业经历，回顾 AI Infra 工程师的职业发展，并且展望未来的 AI 时代机遇，AI infra 大模型推理仍然有很好的机会。

袁进辉老师提到，做算法和做 Infra 有显著的不同：

Algorithm 更依赖创造能力，更依赖灵感，从无到有；而 Infra 更依赖归纳和抽象能力。
Infra 对延迟满足感要求高，聪明人不一定干得了，更需要团队协作。
Infra 有时间累积效应，知道 ldea 也不一定能复现，而 Algorithm 不易形成商业壁垒，窗户纸一旦捅破，天下皆知。

袁进辉老师结合自己的创业经历和深刻的思考，对于创业者，从业者的未来方向产生一些启发。

本次 Meetup 活动的上半场主要集中在 SGLang 推理架构的核心开发者的技术分享上。

SGLang 核心开发者尹良升，介绍了近期 SGLang 的技术进化的里程碑和未来路线规划。

尹良升老师着眼于架构技术进步，深度讲解了 KV Cache 分层缓存，Piecewise CUDA Graph，Spec Decoding 的重叠调度等 SGLang 的最新技术进展，能够实现不同程度的效率和兼容性优化。

在 Roadmap 部分，尹老师主要介绍了对广泛企业的支持，对各类软硬件的拓展兼容和稳定性。

随后，清华大学副教授章明星，以 Mooncake/KTransformers 与 SGLang 近期的合作进展和 2025H2 路标为主题进行了分享。

章明星老师详细讲解了集「快速传输」、「大量存储」和「易用」结合的高性能分布式 KV Cache 存储解决方案 Mooncake 与 SGLang 的 PD 分离技术相结合的工作，取得了良好的性能效果。

章老师介绍，与 SGLang 相整合的 HiCache 技术，通过多层次缓存管理（GPU、CPU、外部存储）与层页混合内存布局，结合重叠预取策略，大幅提升了 SGLang 在多 GPU 场景下的内存利用率与推理吞吐性能。

SGL 与 LLama-Factory 正在通过集成 KTransformers 实现从 CPU/GPU 混合推理到 LoRA 微调的全流程开源生态扩展，使大模型（如 DeepSeek、Kimi K2）在本地和多 GPU 环境下高效运行与微调成为可能。

该部分工作与趋境科技合作进行。

同时，在未来 Mooncake，KTransformers 也会有更多开源整合项目。

亚马逊云科技 EC2 产品解决方案架构师肖萍，以 SGLang 在纯 CPU 环境下的性能与优化研究为题做第三场分享。

肖萍老师讲道，SGLang 在 CPU 上运行适用于小型语言模型服务、传统机器学习任务，以及低成本的 MoE 模型推理；结合了 SGLang 在 CPU 环境下运行的挑战，通过优化调度、缓存复用、量化策略和底层指令级优化来提升性能、降低成本的应对方法。

除此以外，还特别提及了在单个模型，例如 DeepSeek 上的 CPU 优化方法。

上半场的最后，SGLang 量化负责人张鹏，介绍了 SGLang 的量化方案和未来路线。

张鹏老师详细讲解了 SGLang 的量化方案、量化模块和量化粒度相关的技术细节，介绍了 SGLang 目前支持的广泛量化类型，保证量化精度的三类技术方法。

同时，张鹏老师介绍了 SGLang 量化部分近期的工作：实现了 FP4 量化支持，W4AFP8 达成了实现；DeepSeekR1 和 V3 更容易单机部署；多硬件支持，并进行了代码重构工作。

未来的量化路线图聚焦于扩展应用范围、提升灵活性，并引入新型数据格式以进一步优化模型性能与效率。

受限于本文篇幅，我们不对技术细节进行过多的介绍，感兴趣的读者请参阅 SGL Project 相关页面：

https://github.com/sgl-project
https://lmsys.org/blog/

广泛应用实践

见面会的第二部分主要集中在应用和实践方面，展现了 SGLang 在不同场景下的应用现状。

下半场的第一个分享来自百度搜索架构部负责人百度搜索杨文博，主题是 Ernie 4.5 适配与百度搜索的 SGLang 实践。

Ernie 4.5 即文心 4.5 系列开源模型，杨文博老师详细介绍了百度内部对于 Ernie 4.5 模型大规模部署的系统优化方案的实践：在架构、调度、计算和硬件兼容性上全面提升，实现高性能、跨平台的大规模推理部署。

此外，杨文博老师提到，在百度搜索场景中采用 SGLang 开始于 DeepSeek V3 的分布式推理复现，随后广泛应用于 LLM 推理、蒸馏和 RL 训练。搜索架构团队对 SGLang 做了一些例如特定模型优化、小卡优化和调度优化的技术工作。

关于文心 4.5 模型在 SGLang 的适配细节，请参阅：

github.com/sgl-project/sglang/pull/7657

在搜索场景上，腾讯专家工程师曹皓紧接着分享了 SGLang 在微信搜一搜的应用实践。

在微信搜一搜业务体系中，LLM 的应用包括：深度思考，快速回答，视频号前链，深度研究四个主要场景。

曹皓老师提到，搜索业务中的目标是在有限 GPU 下实现高吞吐量与低延迟推理，确保搜索与问答类场景具备「首字快、生成流畅」的用户体验，关注首字速度 TTFT 和生成速度 TPOT 的指标。而 SGL 昂为微信搜一搜提供了高性能的 LLM 推理支持。

曹皓老师详细的讲解了针对生成流畅度，降低 PD 分离的影响；长输入场景下 TTFT 的优化；长耗时流量负载均衡以及 PD 分离规模化部署的相关技术细节和实现流程。

在行业应用场景中，大模型在 NPU 上的适配运行是非常重要的一环。华为大模型优化算法专家秦正达分享了 DeepSeek V3.2 在 NPU 上的适配和优化实践。

在 DeepSeek V3.2 的部署方案上，通过对比 MHA + 稀疏掩码；MHA + 稀疏注意力以及 MQA + 稀疏注意力优化，最终选择了 MQA + 稀疏注意力的部署方案，实现了计算量、显存访问与执行效率的平衡，在长序列推理中显著提升性能与资源利用率。

同时，秦正达老师针对 PreFill 和 Decode 的并行策略进行分析，讲解了在 NPU 上的融合算子和算子优化的相关技术细节。未来规划聚焦在三大方向：低比特量化、KV 缓存下沉与 MegaKernel 并行优化，目标是通过软硬件协同进一步提升长序列推理性能与系统吞吐效率。

大模型优秀大脑齐聚硬核开源聚会，SGLang社区举办国内首次Meetup

相关内容

热门资讯