红帽推出llm-d社区:打造大规模分布式AI推理“Linux”
创始人
2025-06-15 21:42:57
0

IT时报记者 郝俊慧

随着DeepSeek等开源模型的技术突破,以及AIGC应用市场的逐渐成熟,推动算力需求结构正发生根本性转变。

Gartner预计,到2028年,80%以上的算力将用于推理而不是训练。与此同时,随着推理模型日益复杂和规模不断扩大,其对资源需求的持续攀升限制了集中式推理的可行性,并有可能因成本过高和延迟过长而使AI创新陷入瓶颈。

近日,开源解决方案提供商红帽公司宣布启动全新开源项目llm-d,通过增强vLLM(虚拟大语言模型)的能力,推动形成大规模分布式生成式AI推理的行业标准。

具体而言,llm-d采用原生Kubernetes架构、基于vLLM的分布式推理和智能AI感知网络路由,可以将先进的推理能力集成到现有的企业IT基础设施中,从而显著降低与高性能AI加速器相关的总体拥有成本(TCO)。

推动vLLM成为新一代AI推理的Linux

vLLM是由vLLM社区维护的开源代码库,它可以通过更好地利用GPU内存来加快生成式AI应用的输出速度。这种技术尝试的终极目标,是打造一个通用的推理平台,让企业可以在任意云环境中的任意加速器上部署任意模型,而无需高昂的成本。

由此可见红帽在AI时代的“野心”:让vLLM逐渐成为新一代AI推理的Linux,成为新型跨混合云环境推理的开放标准。

从技术层面来看,llm-d提供了一套创新体系,其中:vLLM已迅速成为开源领域的事实标准推理服务器,为新兴的前沿模型提供Day0模型支持,支持各种加速器,包括GoogleCloud的张量处理器单元(TPU);其次,预填充和解码分离功能,可以将AI的输入上下文和token在生成阶段便分离成离散操作,然后将它们分布到多个服务器上;第三,基于LMCache,将键值缓存的内存负担从GPU内存转移到更具成本效益且容量更大的标准存储,如CPU内存或网络存储;同时,由Kubernetes驱动的集群和控制器可在工作负载需求波动时更高效地调度计算和存储资源,同时确保性能和较低的延迟;最后,在网络方面,通过AI感知网络路由,可以将传入请求调度到最有可能拥有过去推理计算热缓存的服务器和加速器。

通过这些技术创新,可以使IT团队能够满足关键业务工作负载的各种服务需求,同时部署创新技术以最大限度地提高效率,并显著降低与高性能AI加速器相关的总体拥有成本(TCO)。

AI开源更安全、更开放

2022年底掀起的这轮AI飓风,时至今日,大模型厂商已不再纠结于开源还是闭源,基本共识已经形成:开源一定具有和闭源同样的强大生命。当然,只有在共同创建并持续维护的前提下,开源才真正有意义。

为此,红帽正致力于围绕vLLM社区(包括用于大规模分布式推理的llm-d)构建一个生态系统。红帽总裁兼首席执行官MattHicks表示,红帽的使命是为客户提供真正的选择和灵活性,红帽交付的每一层——无论是Linux、容器还是自动化——都保持开放且值得信赖,正是这种开放性,催生了vLLM、Kubernetes、OpenShift等项目中那种大规模协作与共享标准的生态,“社区治理是默认模式,而非例外”。

红帽高级副总裁兼首席营收官Andrew Brown也透露,客户非常认可这种做法,“他们看到红帽支持任何云、任何连接器、任何模型,没有锁定,他们就能快速迁移并扩展,而且一切都建立在开源之上,这进一步加深了他们的信任。”

生态合作写在了红帽的基因里。红帽从上游社区做起——例如早期与NASA合作推动RHEL——随后把成果延伸到ISV、系统集成商以及云服务商。现在,RHEL与OpenShift已能在AWS、Azure、Google Cloud、IBM Cloud直接订购,Ansible Automation Platform则通过红帽与IBM渠道销售。

AI时代的到来,让这种合作更加紧密。此次发布的llm-d项目便云集了全球诸多科技巨头,比如,CoreWeave、Google Cloud、IBM Research和NVIDIA是该项目的创始贡献者,而AMD、思科、HuggingFace、英特尔、Lambda和Mistral AI是该项目的合作伙伴。

亚太市场:AI与创新的热土

亚太市场是红帽全球战略的重点。

IDC数据显示,预计全球35%的AI新增价值来自亚太,涵盖金融、电信、政府等领域,印度、中国和东南亚正出现AI井喷,金融、电信、政府等行业的创新活力十分旺盛。

印度、中国和东南亚的AI热潮推动了本地ISV的创新,当地ISV(软件服务商)正在将AI深度融入产品。为此,红帽成立了面向亚太的共创团队,让当地ISV工程师与红帽专家一起开发,再交由系统集成商交付给最终用户。其中的关键是RHEL Partner Validation计划,它允许ISV自助验证兼容性,加速上市,确保“Validated on RHEL”标签的可靠性。

“客户选择红帽的原因很简单:平台自由——从小规模起步,快速扩展,并且随时在本地满足需求。”Andrew Brown介绍,通过OpenShift Virtualization、RHEL镜像模式和实时内核,红帽提供灵活平台,支持客户从小规模起步到快速扩展,即使在非核心科技区域也能保持一致性与安全性。

相关内容

热门资讯

构建立体治理体系 平衡AI技术... 证券时报记者 吴少龙 近日,上海、天津、浙江等多地公布了“清朗·整治AI技术滥用”专项行动第一阶段的...
《长安的荔枝》演员演技排名:张... 《长安的荔枝》,火了。从长安城的勾心斗角到岭南的市井烟火,从权倾朝野的大人物到命如草芥的小人物,《长...
港剧有望登上卫视黄金档!TVB... 作者|James6月12日,大湾区观众最熟悉的电视台TVB(电视广播有限公司)在广州发布了一系列新战...
二十年搭档:沈腾马丽的喜剧哲学 提问:喜剧圈的顶流cp是谁?相信大部分人脑海里浮现出的名字,都是“沈马”。这不,这两人最近又上了热搜...
E句话|啊?他配当林志玲老公? E句话看天下E姐&主播板栗为您打造的世界奇妙物语。我们的宗旨是:来不及了,快上车!E姐看综艺卫兰居然...
最新统计出炉:幼儿园一年关掉2... 南都讯 记者吕虹 发自北京6月11日,记者从教育部获悉,《2024年全国教育事业发展统计公报》发布。...
网友举报武汉长江大桥上轿车违停... 极目新闻通讯员 杨首靖 6月14日晚,网友发布短视频举报,反映一辆轿车在武汉长江大桥上违停、接人上车...
故宫漏雨冲上热搜!明代书画被打... 今天(6月15日) 故宫漏雨登上热搜 6月14日,北京突降暴雨 据现场游客和网友反映 故宫午门“乐林...
广东外语外贸大学今年在广东计划... 6月15日,广东外语外贸大学(下称“广外”)举行校园开放日新闻发布会,正式发布2025年招生政策。 ...
江苏徐州:先行判决,千名购房者... 月季花静静绽放,玉兰树亭亭玉立,鲜花和绿树相互倾诉着夏意盎然的故事。三五成群的孩童追逐嬉戏,不时有车...
红帽推出llm-d社区:打造大... IT时报记者 郝俊慧 随着DeepSeek等开源模型的技术突破,以及AIGC应用市场的逐渐成熟,推动...
巴基斯坦这么多先进武器和飞机援... 中东火药桶再次被点燃!当以色列战机集群悍然空袭伊朗境内十余座核设施,当革命卫队高级将领与核科学家在定...
星睿AI云动力2.0赋能,“最... 吉利正式发布行业首个基于AI场景引擎的动力域智能体——星睿AI云动力2.0。在星睿AI云动力2.0的...
【一周连连看】教育AI新场景和... 来源|多知 作者|Penny Hi,周末快乐。 高考结束后,各个大模型开始比拼硬技术实力,高考志愿领...
伊姐周日热推:电视剧《焕羽》;... 电视剧《焕羽》即将播出《焕羽》是由西嘻影业出品,杨晓培担任艺术总监和总制片人,刘紫微执导,钱晶晶、徐...
专业破壁、人性托举、伦理守护—... 6月10日,《无尽的尽头》举行了盛大的研讨会,腾讯视频相关领导提到《无尽的尽头》取得了口碑、社会、商...
华为 WATCH 5 系列鸿蒙... IT之家 6 月 15 日消息,在 6 月 11 日举行的华为 Pura 80 系列及全场景新品发布...
《庆余年》第三季21:李弘成出... 范若若北齐学医,竟然想起了追求她的李弘成。海棠朵朵在北齐有一处田园,平日里在这里种种菜什么的,不过随...