数据留存率仅5.1% “以存强算”迫在眉睫
创始人
2025-07-12 04:41:29
0

中经记者 秦枭 广东报道

近日,国际数据公司IDC发布的报告显示,2025年全球将产生213.56 ZB(泽字节,1 ZB=10亿 TB)数据,到2029年将增长至527.47 ZB;其中,中国市场2025年将产生51.78 ZB数据,2029年增长至136.12 ZB,复合年均增长率达26.9%。然而,这场静默的“数据大爆炸”生产数据的速度远远超过有效存储数据和利用数据的速度。数据显示,我国数据产量位居全球第二,但超40ZB的年产量(2024年)中只有5.1%被有效留存,大量的数据要素价值没有被充分释放。

多位业内人士在接受《中国经营报》记者采访时表示,我国虽然已经是全球的数据大国,但还不是数据强国。数据存储技术落后、存储成本高、存储设备容量小等原因,造成了存力不足。此外,数据管理不规范、数据使用权限不明确等问题也影响了数据的存储和利用。

数据留存的痛点

随着 5G、物联网、人工智能等新兴技术的广泛应用,数据量呈指数级增长。社交媒体上用户分享的海量图文、视频,在线视频平台源源不断产出的影视内容,以及各类传感器实时收集的环境、设备数据等,共同构成了数据的洪流。

《全国数据资源调查报告(2024年)》显示,2024年全国数据生产总量首次突破40 ZB,达到41.06 ZB,同比增长25%,增速较上年提高2.56个百分点。人均数据生产量约为31.31太字节(TB),相当于1万多部高清电影,同比增长25.17%,数据生产总量和人均产量实现同步跃升。根据《数据存储2030白皮书》预测,到2030年,全球每年新产生的数据总量将超过1YB,也就是1亿亿亿字节。

随着数据总量的指数级跃升,存储已从传统的“数据容器”跃迁为支撑数字经济高质量发展的战略基座,是激活数据要素价值、培育新质生产力的核心引擎。据中国信通院副院长王志勤介绍,我国存力建设取得显著成效,截至2024年年底,全国存力总规模已达1580 EB(艾字节,1EB等于一百亿亿字节),先进存储占比提升至28%。然而,行业仍面临“存而不用、用而不深”、核心芯片/软件/介质短板以及存算运协同效率待提升等挑战。

《全国数据资源调查报告(2024年)》显示,2024年生产的数据量中,仅有5.1%被存储下来,这意味着将近95%的数据在源头就被抛弃,造成了数据资源的极大浪费。不仅如此,在已存储的数据中,一年未使用的数据占比为四成,存储资源未能得到充分有效的利用。大量数据的丢失和浪费,使得潜在的经济价值和知识价值无法被挖掘,数据资产价值变现效率低下。数据的流动性不高,共享困难,存在数据孤岛现象,缺乏数据可视化管理,导致数据不敢流动、不能流动,数据使用效率低。

值得注意的是,2023年我国数据产量已经达到32 ZB,而数据转化率也只有2.9%。

“在数据留存率方面,我感觉是显著提升的。”华为数据存储产品线战略与业务发展部总裁王旭东直言,“然而,相较于一些发达国家,我们仍存在较大的差距。我们国家的数据产出极为庞大,如何以更高效、经济且可行的方式进行存储,成为一个亟待解决的问题。这需要业界各方的共同努力,包括政府推动数据中心建设以及行业内部建立相关设施。在这一过程中,技术的探索显得尤为重要。”

华为分布式存储解决方案部部长陈琳表示:“在过去,模型训练依赖于自然语言数据,然而现在,我们看到所有大型模型几乎已经学习了市场上可获取的所有文本资料。接下来的发展趋势是数据的多模态化,这将导致数据量呈指数级增长,从而引发数据量的膨胀。面对这种膨胀,我们的存储能力及解决方案必须满足更高的要求。例如,数据量从TB级、PB级增长到EB级,如此庞大的存储需求,我们如何构建相应的存储系统?这无疑对存储的扩展性、安全性和可靠性提出了严峻的挑战。”

急需存、算、运一体化

“存力决定了算法与模型的深度与广度。”广东华电惠州能源有限公司系统架构师栾阳表示,“在一些具体场景中,训练大模型与实时推理需要高吞吐、低时延的训练数据供给。没有强存力支撑,数据就无法被快速调取与加工,智能决策也就无从谈起。因此我们认为,存力是连通数据孤岛、释放数据要素价值的桥梁。”

以AI大模型场景为例,由于缺少可信的数据流通利用基础设施,数据供给慢,大量算力处于等待数据的状态。

华为数据存储副总裁、营销运作部部长樊杰坦言:“我们看到很多的算力集群使用率是在30%左右,剩余70%的时间在干吗?在等待,等待什么?等待数据的归集,等待数据的加载。模型每两个小时会做一次数据的保存,每次存的时候,要等待存放的时间,一旦出错,又要重复刚才的过程,重新做一遍,所以我们看到算力很宝贵,但是大量的时间在等待。”

中国联通广东公司智算高级专家黎元宝也表示,没有高效、安全、经济的数据存储,再强大的算力也只能“空转”,因此未来的算力网络建设将从“以计算为中心”的模式走向“以数据为中心”,实现“存力、算力、运力”的一体化整合。

“从自主可控的角度出发,我们也必须构建基于国产软硬件的高可靠存储体系,这不仅关乎系统安全性,更关乎能源行业数字化转型的韧性与自主性。”栾阳强调。

“如何做到‘以存强算’?”樊杰认为,“在训练阶段,尤其是在数据类型特别复杂的情况下,快速读取、低时延、大带宽对存储非常重要。我们现在已经可以从小时级数据存放,做到分钟级,根据数据量大小,就可以完成小时级的操作,大幅提高训练的效率。我们现在可以看到,在实际的项目当中,可以把整个算力集群效率从30%提高到60%左右。”

“推理阶段则更注重效率,”樊杰举例道,“比如与大模型进行对话的时候,尤其是进行多轮对话,大量数据要重新算一遍。因为在前面那一轮已经算过的数据,存不下,导致重复去算之前的数据,这是对算力的巨大消耗。现在我们把这些知识存下来,再实现快速查找就可以,使推理的效率大幅提升。”

为此,国家各部委在积极出台政策,推动建设行业和区域数据归集平台,促进数据从“碎片化”向“集约化”转变,加速数据要素价值释放。此外,各地方也在积极建设先进存力中心。目前,广东韶关、重庆、河北廊坊等枢纽节点正在建立存力中心。除发展AI相关产业外,存力中心未来可以成为省级备份灾备中心,或者行业、区域语料库,开发汇聚基地、产业聚集基地。

王旭东表示,存力中心是一种新型的数据基础设施,通过规模聚数、高效治数、安全供数、产业用数四个维度,助力打造数据的可信托管中心、数据治理中心、数据流通中心和数据开发中心,实现数据从资源到资产的有效闭环。

相关内容

热门资讯

四川省:支持符合条件的畜牧业重... (转自:新基建投融圈)四川省人民政府办公厅关于印发《促进畜牧业高质量发展十条措施》的通知川办发〔20...
“坟头上的草青了又黄……” 六... 来源:大皖新闻 连日来,一段关于大爷挑战写作1957年高考同题作文《我的母亲》的视频火爆全网。不少网...
刚刚,又“杀疯了”!全国网友都... “外卖大战听我说谢谢你因为有你我有了早起的动力0元奶茶咱也是喝上了”7月11日晚美团发布微博“周六,...
重要发布会,下周一举行 据国新网消息,国务院新闻办公室将于2025年7月14日(星期一)下午3时举行新闻发布会,请中国人民银...
活力中国调研行丨从滕王阁到望仙... 一座古阁,历经二十九次重建,文脉仍在赣江之畔延续;一个村落,从“沉寂多年”到人气回流,在创意与情怀中...