2025年,全球AI领域迎来史上最汹涌的“开源潮”。
从DeepSeek全面开源大模型,到百度宣布文心大模型加入开源阵营,技术民主化的呼声似乎达到顶峰。然而,当开发者们欢呼“人人可用”时,一场由算力、数据和云服务构建的“隐形垄断”正在悄然成型。
Synergy研究集团2025年Q1报告显示,全球云基础设施支出达940亿美元,同比增长23%,其中60%份额被亚马逊AWS(29%)、微软Azure(20%)和谷歌云(11%)瓜分。不单单是收入,60%的高质量训练数据也都集中于5家科技巨头手中。
6月5日智通财经消息称,人工智能基础设施建设持续扩张,亚马逊宣布将投资100亿美元扩建其位于北卡罗来纳州的数据中心集群。
“开源代码只是第一步,真正的门槛是算力和数据。”某国内AI初创公司CTO向未来图灵坦言,“我们能用开源模型,但训练成本动辄千万美元,实时数据还要向大厂购买,这就像给你免费菜谱,但食材只在天价超市出售。”
算力霸权
开源模型的普及并未削弱硬件巨头的统治力,反而强化了其垄断地位。
据Synergy研究集团数据显示,到2024年底,超大规模运营商运营的大型数据中心数量已攀升至1,136个,相较于2019年实现了数量翻倍的增长。而且该机构预测,在未来数年,每年新增的数据中心数量将维持在130-140个。
在全球云服务市场中,亚马逊、微软和谷歌牢牢占据着主导地位。从地区分布来看,美国掌控着全球数据中心总容量的54%,占据绝对优势;中国以16%的占比位居第二;欧洲则占比15%。
Synergy首席分析师约翰・丁斯代尔指出:“在历史进程中,数据中心的平均规模增长较为平缓,呈渐进式发展,但近几个季度,企业对AI基础设施建设的强烈需求,彻底打破了这一常规态势,使得数据中心规模增长呈现爆发式增长。”
2025年第一季度,全球企业在云基础设施服务方面的投入达到了940亿美元之巨。与2024年第一季度相比,支出增长了23%,增长金额高达175亿美元,其中公共基础设施即服务(IaaS)和平台即服务(PaaS)占据了市场的大部分份额。
约翰·丁斯代尔分析道:“虽然增长在不同地区和服务领域都有体现,但人工智能显然起到了重要作用。生成式人工智能特定服务的增长在140%到160%之间。”
AI发展所引发的算力需求,正在重塑全球数据中心格局以及云服务市场的投入走向。
开源是否真的带来了平等?
实际上,当所有人都能拿到模型代码,但训练成本和实时数据壁垒依然将中小玩家拒之门外。
以英伟达为例,英伟达自2021年起推出DGX Super Pod的云订阅服务,用户可按月租赁算力。到了2025年,客户已无法直接获取服务,而是需要通过 CoreWeave、Lambda Labs等云厂商间接租赁算力。作为英伟达的核心合作伙伴,CoreWeave凭借优先获得GPU资源的优势,构建起 “GPU即服务”(GPUaaS)的商业模式。
目前CoreWeave的大型客户包括微软、英伟达、Meta、IBM、Mistral和Cohere等,其中微软更是贡献了 62% 的业务量。此外,CoreWeave的算力服务也逐步渗透到金融、制药等高性能计算需求较高的行业。华尔街量化交易公司Jane Street,以及多个生物制药企业,均依赖CoreWeave的算力支持其模型训练和数据分析。
据悉2025年,CoreWeave计划进一步扩大数据中心网络,新增10座数据中心。
对于AI算力供应商而言,数据中心的扩张不仅代表着计算能力的提升,也直接影响客户的服务质量和算力成本,随着全球AI训练任务的规模不断增长,数据中心的算力密度成为企业竞争的关键要素。
此外有消息称,CoreWeave手握超过25万张英伟达的GPU,英伟达不仅是其核心供应商,更是其战略股东之一。
硬件采购的门槛更是令人咋舌。据公开资料显示,香港数码港2024年10月启用的超算中心采用英伟达DGX H800 GPU,每个节点月租金达32万港币(约合人民币29万元),若采购多节点集群,成本将远超2.5亿元。英伟达最新财报也显示,其数据中心业务单价持续攀升,2025财年第四季度数据中心营收达356亿美元,同比增长93%。
不仅如此,英伟达最新发布的芯片针对主流开源模型进行了深度优化,这一“巧合”背后隐藏着巨大的利益关联。据了解,为实现这种优化,英伟达投入了价值27亿美元的适配合作。当开发者为了追求模型的高性能而不得不采购特定硬件时,开源模型在不知不觉中沦为了最隐蔽的捆绑销售工具。
专业数据被私有化
开源模型的另一大壁垒是数据。Mozilla基金会2024年的报告指出,Common Crawl的爬取范围已被Facebook、《纽约时报》等头部网站大幅限制,导致其数据无法代表“整个网络”,尤其缺乏专业领域的深度内容。
高质量数正在流失。据Common Crawl的统计数据显示,2023年后,《纽约时报》等头部网站限制爬取,其页面数量同比下降37%,而低质量网站占比从2019年的12%升至2024年的21%。
大厂虽通过开源基础模型(如Transformer架构)建立技术标准,却借助云服务、数据管道、开发工具实现隐性控制。此前腾讯元宝的《用户协议》。其中一项条款约定,对于用户向腾讯元宝输入的内容,腾讯可以获得几乎所有场景的使用权,且授权是“无地域限制的、永久的、免费的。”
被曝光后,3月1日到3月5日之间,元宝《用户协议》进行了三次修改,调整了腾讯对输入内容的使用范围、授权方式。
同时,腾讯公关总监张军在朋友圈回应道:“非常抱歉给大家造成困扰。使用元宝时输入和输出的内容,权利归您或相应权利人所有人,使用元宝并不会改变归属。最新版本已经增加数据管理功能,相关内容都不会用于大模型优化。”
目前,腾讯元宝的页面新增了“体验优化计划”开关,关闭后,用户输入的内容将不再用于训练AI。
开源模型的致命诱惑在于其完美的双赢假象。
正如网友匿蟒 所言,(算法 + 算力 + 数据)× 时间 = 模型,模型才是能用的东西,而算法只是门槛之一。
开源运动的初衷是技术平权,但在AI时代,算法自由≠资源自由。当算力、数据、生态成为新的垄断壁垒,开源可能只是巨头“圈地运动”的开始。
未来的AI竞争,不仅是代码之争,更是基础设施与规则制定权的争夺。如果没有政策干预和生态创新,“人人可用”的理想终将沦为“少数人掌控”的现实。