大型科技平台公司如何提供数据服务?
创始人
2026-01-29 07:03:51

  数据作为AI发展的三大核心要素之一,已成为AI大模型训练、推理和验证的关键基础。根据AI研究机构Epoch AI的数据,大语言模型的训练数据集规模约每8个月翻一番,这一增长趋势与模型复杂度的提升共同推动AI性能边界扩展。

  AI时代,全球主要国家和地区高度重视面向AI的高质量数据集建设,陆续出台鼓励措施;领先数据企业则基于自身在不同细分领域的资源禀赋,将数据汇聚治理与AI模型优化结合,提供多层次、多功能、全流程的服务。

  以亚马逊、微软、谷歌等为代表的大型科技平台公司,已超越单纯提供云基础设施的角色,正逐步构建覆盖数据采集、存储、处理、治理、流通与应用等环节的全链条“数据赋能人工智能(Data for AI)”服务体系,通过提供覆盖数据全生命周期的全栈服务、构建高质量数据集与处理框架、积极推动数据空间建设等方式,助力企业构筑AI时代的核心数据竞争力。

  提供覆盖数据全生命周期的全栈服务

  亚马逊云科技(AWS)认为,利用现有数据支持微调或预训练模型、将现有数据快速结合模型产生独特价值、有效处理新数据助力生成式AI应用飞速发展,是当前生成式AI时代重要的三大数据能力,通过三大数据能力可以构筑起生成式AI强大的数据基座。

  面对企业数据分散、格式不一、治理困难的普遍挑战,三大平台公司均推出了旨在统一数据资产、简化AI应用开发的集成式平台。其核心战略是提供端到端的解决方案,将数据存储、处理、分析、机器学习乃至AI应用开发整合在一个无缝衔接的环境中,大幅降低企业从原始数据到智能应用的技术门槛与时间成本。例如,AWS提出云原生数据战略,通过整合云原生数据库、大数据分析和人工智能工具,构建端到端数据解决方案,帮助企业在数据快速增长环境中实现管理、访问、分析和处理数据的全面规划;微软Fabric支持端到端数据工作流,提供数据工程、数据工厂、数据科学、实时智能、数据仓库和数据库等集成体验,截至2025年11月,客户数量超2.8万,覆盖80%的《财富》世界500强企业;谷歌则将机器学习、生成式AI、向量搜索与智能体工具深度整合至其数据分析平台BigQuery,通过将复杂技术封装为用户友好型工具,让非技术背景的数据工作者也能直接利用先进AI模型完成端到端的数据分析与机器学习任务。

  构建高质量数据集与处理框架

  三大平台公司均构建和发布了大量的高质量数据集,这些数据集直接托管在平台公司的云端,通过与公司的其他数据服务无缝集成,用户可直接导入数据进行建模,无需进行烦琐的ETL(提取、转换、加载),并利用平台公司的计算资源进行数据处理和分析。

  亚马逊的AWS Data Exchange是一项完全托管的数据分发服务,该服务与AWS的S3、Redshift、SageMaker等数据存储、分析、机器学习服务无缝集成,用户可以在AWS环境中发现、订阅并使用来自第三方的数据集。截至2026年1月19日,该服务提供了来自578家数据提供商的5326个可授权数据产品,涵盖零售营销、金融服务、医疗保健等多个领域。其中由AWS开放数据赞助计划支持、免费提供的数据集有380个。

  微软通过与公开数据源建立FTP连接、引入合作伙伴数据集等方式,在其开放数据集平台Azure Open Datasets发布涵盖交通运输、健康和基因组学、劳动力和经济等多个领域的开放数据集,用户可在Azure服务及Azure机器学习工作流中直接访问和调用。微软研究院则于2024年12月发布了名为REDSTONE的开源数据处理框架,并利用该框架构建了总规模达3.48万亿token的训练数据集,覆盖通用知识、代码、数学和问答等多个关键领域。

  谷歌作为AI领域的先驱和引领者,其TensorFlow数据集、Google Cloud公共数据集等高质量数据集在推动整个行业的技术进步和学术研究方面扮演了至关重要的角色。这些数据集不仅规模宏大、标注精细,而且覆盖了从文本、图像、音频、视频到地理空间信息的全模态,为机器学习模型提供“世界性的知识体系”,从而提升模型的理解与生成能力。开放数据集是吸引全球研究者和开发者的“磁石”,他们基于谷歌数据集的成果,也会反哺和增强谷歌的整个AI生态。

  积极推动数据空间建设

  数据空间通过打破跨组织和行业的“数据孤岛”来帮助支持公共和私营部门更快地进行创新,同时支持安全和受控的数据交换,充分释放数据价值。全球许多数据空间倡议正在将政府、研究机构和商业组织聚集在一起,以支持世界各地基于开放标准的数据空间。近年来,三大平台公司积极参与国际数据空间协会(IDSA)、Gaia-X计划、EDC数据空间组件开源项目、欧盟汽车行业数据空间Catena-X等数据空间领域的国际组织、项目,推动数据空间生态建设;例如,AWS作为Gaia-X的“首日”成员,参与多个工作组并将52项服务纳入Gaia-X演示服务目录。

  三大平台公司在提供云基础设施服务的基础上还提供数据空间解决方案,构建数据空间技术及服务能力的同时,还可以集成数据分析、机器学习和商业智能等服务。例如,AWS与上海临港新片区合作,推出了用于跨境数据协作场景的可信数据空间解决方案,通过隐私计算等技术实现不同监管区域数据的价值打通,为企业出海提供合规的数据利用途径;微软Azure的工业数据空间解决方案,集成了OPC UA、AAS以及EDC等核心技术组件,有效支撑产品碳足迹的精确计算,并且促进相关数据的安全流通与价值挖掘;谷歌云则积极参与欧盟Catena-X汽车数据生态系统建设,帮助企业应对可追溯性、可持续性、循环经济和高效供应链方面的挑战和机遇。

  (作者单位为中国电信研究院)

相关内容

热门资讯

哪... 在学习的过程中,使用还原空白试卷的方法是一种非常有效的学习工具。还原空白试卷是指将已经写过的试卷通过...
单... 单片机仿真软件有哪些及其比较?Multisim具有超强的板级模拟/数字电路板设计工作。 包括电路原理...
“... 哪种文字转语音广播软件最好? 百万粉丝用的情感配音软件有哪些? 接下来我们就来看看这个叫“来曲”的。...
i... 俗话说想要画好,软件必不可少但现在软件这么多,哪一款是我们“合适的”呢? ?今天小编要给大家带来的...
新一股冷空气今起影响我国,较大... 每经AI快讯,据中国天气网消息,今起三天(1月29日至31日),新一股冷空气将给我国带来降温,局地降...