阿里云容器服务覆盖AI全流程,团队透露:OpenAI训练GPT时就用了我们的开源能力
创始人
2025-09-19 18:15:43
0

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

拿下中国AI云市场第一后,阿里云又敞开说了。

援引第三方机构Omdia数据,中国AI云市场规模达到223亿元,阿里云占比35.8%位列第一。

围绕这一领先地位的技术根基,阿里云的弹性计算、集群、容器、人工智能平台等技术产品负责人来了场AI Infra分享会。

AI全栈云计算、10万GPU拼巨型运算器、AI落地避坑指南……

可以说,这场AI Infra分享会,阿里云不仅亮了算力和AI落地的真功夫,连行业痛点也没藏着掖着,来看看具体说了些啥。

全球全栈的AI云

首先,阿里云这个全栈AI云计算选手,确实把IaaS、PaaS到MaaS的技术架子搭得挺规整。能从算力底座一路顺到AI应用,给企业递上一套端到端解决方案。

阿里云在全球29个地域运营89个可用区,在它家产品生态里,深度融合了计算、存储与AI能力,

比如,在存储领域,还有即将发布的OSS向量Bucket,存储成本大降。

此外,Tablestore查千亿级数据更是快到按毫秒算。

在物流、医疗这些领域,阿里云也确实帮部分客户把效率提了提、成本压了压,给行业数字化转型助推了一把。

10万GPU集群高效互联

接下来是集群。摩尔定律逐渐失效?阿里云早有Plan B。

香农定律,阿里云可以把10万张GPU拼成一个巨型运算器,构建了大规模的计算集群。

这就不再是传统网络连接CPU做输入输出,而是通过高速互联,将数万个GPU组成一个统一的超级运算器,共同完成单一任务。

阿里云的计算负责人表示,这个转变,就像从单个火箭到用数百个火箭捆绑发射的星舰,底层科学理论没变,但工程的复杂度呈指数级增长。

集群规模越来越大,那么如何保证这台超级计算机高效稳定地运行呢?

亲和性调度机制至关重要。

亲和度调度机制确保任务被分配到最接近的GPU上,能最大限度地减少通信延迟,避免性能衰减。

同时,当集群规模达到上万甚至十万卡时,故障率会显著提升,一个万卡任务可能每十几分钟就会遇到一次故障。因此,构建这套秒级的多层级故障监控和感知系统,实现故障的快速发现和任务的无缝迁移,就成为了保障大规模训练连续性的关键。

容器,AI原生底座

容器服务是一种云计算技术服务,核心是通过“容器”这一标准化技术单元,实现软件应用的高效部署、运行与管理。

它可以将软件运行所需的代码、依赖库、配置文件等核心组件封装在一起,形成独立的容器实例。这些实例具备环境隔离特性,能在不同的服务器操作系统(如Linux、Windows)或计算环境(本地服务器、云端服务器)中保持一致的运行状态,避免在本地能跑、换环境就报错的兼容性问题。

在AI时代,容器技术也扮演着“云上操作系统”的角色,尤其是在GPU时代,应用都长在容器上。

容器不仅能帮助企业提升资源利用率(把小红书的CPU利用率从10%拉到50%以上),更成为了AI应用标准化交付的工具。

阿里云容器服务ACK (Alibaba Cloud Container Service for Kubernetes) 就像一个服务器端的安卓系统,向上支撑着模型训练、数据处理、推理服务等各类AI应用,向下则高效地调度和管理着包括灵骏智能计算集群、CPU/GPU算力、存储和网络在内的底层资源。

从数据处理到模型训练,再到推理服务,容器贯穿了AI开发的全流程。

例如,阿里云开源的调度器Koordinator通过队列、优先级等精细化调度策略,最大限度地挖掘GPU潜力,提升训练效率。

有趣的是,阿里云容器的开源技术,还被OpenAI采用过

2021年, OpenAI将其Kubernetes集群扩展到惊人的7500个节点以支持GPT-3、DALL·E等大模型训练时,遇到了一个关键挑战:

分布式训练任务需要所有计算单元同时启动,否则就会陷入“部分调度、整体卡死”的僵局。

为了解决这个问题,OpenAI采用了Kubernetes的Coscheduling(协同调度)插件。

而这个至关重要的插件,其核心技术和思想最早正是由阿里云的工程师们贡献给社区的。

从效率到涌现

聊完底层的算力、存储和容器服务,则进入了如何帮助AI落地的关键环节。

企业用AI,说白了就图俩:效率和惊喜(突破)。

前者是AI辅助写稿、编程的基础价值,后者则是模型超出预期的能力跃迁,比如精准预判业务需求的关键瞬间。

为了让这俩需求落地,阿里云把涌现拆成了三档:预训练决定“基础智商”,后训练负责“专项技能”,业务涌现则依赖数据飞轮的“上下文支撑”。

阿里云有16年历史的DataWorks也升级成了AI搭档,能处理多模态数据还能追根溯源,帮算法工程师解决改完模型却不知道改了哪的难题。

在这场分享会的最后,阿里云团队谈到,AI Agent现在还处在试错期。当前仍面临三大挑战:

  • 结果确定性不足

  • 推理过程难可视化

  • 成本偏高

但阿里云已着手解决这一问题,比如优化沙箱环境,未来将支持AI自主完成数据可视化、工业制图等复杂任务,为其搭建可控操作空间。

最后还聊到具身智能、后训练、世界模型等话题。

整场分享下来,可以看出在AI这场马拉松里,阿里云不仅想跑快,还想把赛道修得更宽更稳。

相关内容

热门资讯

江西专升本录取分数线查询推荐选... 各高等学校:  为了进一步做好我省普通高校专升本工作,我厅对《江西省普通高校推荐选拔优秀高职高专毕业...
最新或2023(历届)天津春季... 市教委关于下达最新或2023(历届)天津市高等职业教育春季高考招生计划的通知 ...
产... 随着信息技术的不断发展,产品总监在日常工作中要管理大量的需求,以保证产品开发的顺利进行。 为了提高工...
湖北招生办最新或2023(历届... 湖北省高等学校招生委员会关于做好最新或2023(历届)普通高等学校招生工作的通知 各高等学校,各市、...