刘益佳
随着人工智能产业蓬勃发展,数据作为关键生产要素的价值日益凸显。据国家数据发展研究院数据,2024年全国数据产业规模达5.86万亿元,这片“万亿富矿”正成为数字经济发展的新增长点。
不过,原始数据要转化为驱动AI的“智能燃料”,必须经过高质量数据集的系统提炼。当前,数据集建设正面临标准不一、加工低效、流通不畅等诸多难题。
11月3日,全国数据标准化技术委员会(以下简称“全国数标委”)2025年第二次“标准周”活动在江苏省南京市举行。活动期间,政府、科技企业与科研院所等多方代表聚焦数据产业发展关键领域,共同探讨了高质量数据集建设的瓶颈和未来发展方向。
全国高质量数据集和数据标注产业供需对接大会现场。人民网 刘益佳摄
“万亿富矿”成色如何?
数据之于大模型,如同石油之于工业。海量原始数据需经系统“提纯”,形成高质量数据集,才能有效驱动人工智能模型的优化升级。
国家数据局有关司负责人表示,建设高质量数据集是推动人工智能创新发展、激活数据要素价值的关键举措。当前,人工智能对高质量数据集的需求呈现从基础认知、场景理解到行动规划逐层递进的态势,本质是让数据的供给精度追上人工智能的应用深度。
近年来,我国高质量数据集建设已成效初显。国家数据局公开数据显示,截至今年9月底,全国高质量数据集总体量超500PB;7个数据标注基地引进和培育标注企业362家,从业人员达8.5万人,带动数据标注相关产值163亿元。
全国数标委委员、烽火通信战略研究院院长陈刚表示,国家数据基础设施建设是数字经济时代的基石。“目前,我国可信数据空间已覆盖20个行业领域、4个城市治理领域及900多个应用场景。”
市场的热度在供需对接会上可见一斑。11月5日召开的全国高质量数据集和数据标注产业供需对接大会上,90余项合作项目达成,累计交易金额突破9亿元,展现出数据要素市场的蓬勃活力。
“掘金”之路“卡”在何处?
尽管前景广阔,但高质量数据集从实验室走向产业应用的“最后一公里”仍障碍重重。
胡坚波在全国高质量数据集和数据标注产业供需对接大会上发言。人民网 刘益佳摄
日常工作中,南京市建邺区数据局局长孙伟深切地感受到数据企业对于统一标准的渴望:他们在收集、加工数据的过程中耗费了不少资源和精力,数据要素实现“供得出、流得动、用得好、保安全”的前提是定标准。“有了统一标准,更有利于集中发力挖掘数据价值。”
国家数据发展研究院院长胡坚波将核心挑战概括为三点:应用导向不明、建设标准不统一、管理服务支撑缺位。“一些项目在建设前缺乏充分调研,脱离实际应用场景,建成后难以流通;部分数据集因机制、安全等因素‘层层加码’,进一步限制了流通应用。”
目前,标准缺失导致的数据“孤岛”问题尤为突出。全国数标委委员,中国联合健康医疗大数据有限责任公司执行董事、总经理陈曦表示,企业迫切希望从市场最急需的标准入手,通过行业标准与通用标准相结合,实现“1+1>2”的效果。
数据流通安全、配套支撑设施薄弱、生态建设缓慢等,也让建设方与使用方均感到对接困难。
全国数标委委员,蚂蚁集团副总裁、蚂蚁密算科技有限公司董事长韦韬认为,传统基于主体信任的数据安全体系已难以适应发展需求,安全风险成为数据供给与流通利用的首要顾虑。“数据汇聚安全合规风险高,导致行业普遍不敢供、不愿供、不会供;同时,海量个人数据汇聚带来的法律责任重大,安全事件频发。”
苏州柏川数据科技有限公司副总经理朱丹提到,数据生产正面临采集能力滞后与存储成本高的双重挑战。“一方面,传感器发展滞后影响数据采集的广度,具身智能所需的嗅觉、味觉等数据目前无法有效获取;另一方面,随着数据爆发式增长,如何降低存储成本也是个重要课题。”
在资源应用领域,数据安全与合规性挑战同样不容忽视。上海库帕思科技有限公司CEO黄海清提出:“当前合规监管机制不健全,数据版权存在争议,企业甚至可能面临‘数据投毒’威胁。”
所谓“数据投毒”,通俗来说,把AI比喻成人类,训练数据就相当于食材,食材腐败变质,最终训练出来的AI模型就会出现认知误差。有研究显示,当训练数据中混入0.01%的虚假文本时,大模型有害输出率便会上升11.2%。
在医疗、金融等敏感领域,数据可用性与隐私安全的矛盾更为突出。江苏省人民医院副院长刘云坦言,医院虽有丰富的医疗数据,但合理使用数据的难度不亚于“走钢丝”,“我们通过AI数据治理平台推进数据自动清洗,基于数据分类分级开展数据脱敏,但想要实现进一步共享还需要更多实践。”
共建医疗健康高质量数据集产业基地合作签约。主办方供图
如何破局?
面对多重挑战,专家认为,破解“变现难”还需依托清晰的顶层设计、积极的政策补位与创新的技术实践。
“江苏数据交易所通过政府引导与市场机制相结合,构建起‘1+13’数据工作体系,实施‘359’区域数据运营方案,积累了区域一体化数据市场建设经验,提供了江苏的新范式。”江苏数据交易所总经理韦志林介绍,江苏公共数据授权运营采取“两级主体、分级授权”模式,加快了公共数据资源的开发利用。
胡坚波提出“1+3+5+N”建设思路:依托一个管理服务平台,围绕社会、重点行业与创新生态三大层面,联动五类建设主体,实现N个典型场景的价值牵引。
目前,标准建设正在提速。全国数标委秘书处、中国电子技术标准化研究院副院长范科峰介绍,全国数标委已面向社会公开征集6个重点方向的标准验证试点单位,在300余家单位开展了试点,形成了一批覆盖能源、医疗、金融、政务等十余行业的典型案例。
数据是一项新业务,需要在不断的实践中探索出一条可行路径。“安全是前提,但不能因过度强调安全而阻碍发展。”与会一名知名学者建议,应建立国家技术标准与免责机制,为数据流通提供“免责盾牌”,鼓励医院、政府等主体释放更优质的数据资源。
出门问问创新科技有限公司CTO孙鹏飞提出了“产模结合”模式,“一方面,通过产品数据反哺大模型训练,另一方面,能借助大模型增强产品竞争力,形成商业闭环。”
防范“数据投毒”,全国数标委委员、浙江大学计算机学院院长任奎建议,构建多元维度融合、安全价值对齐、越狱攻防强化的安全训练语料,为AI模型注入内生安全基因。
据介绍,目前,浙江大学已与华为联合发布DeepSeek-R1-Safe基础大模型,在有害内容防御方面表现亮眼。
展望未来,2025年数据安全发展大会预测,到2030年我国数据产业规模将达7.5万亿元。当精准的供需对接成为常态,高质量数据集将推动人工智能与千行百业从“物理叠加”升华为“化学共生”。届时,这片“数据富矿”将释放更大价值。