中国青年报客户端讯(中青报·中青网记者 贾骥业)记者7月22日从国家数据局了解到,截至今年上半年,我国7个数据标注基地已建设数据集524个,规模超过29PB(计算机存储容量单位,1PB等于1024TB——记者注),服务大模型也有163个。
数据,特别是高质量、多模态、精标注的数据,对人工智能发展至关重要。高质量数据集就是经过采集、加工等数据处理,可以直接用于开发和训练人工智能模型,能够有效地提升模型性能的高质量数据集合。
近年来,我国持续推进高质量数据集规范建设。国家数据局指导合肥、成都等7个城市建设了数据标注基地,先行先试探索数据标注产业发展经验。同时,国家数据局还指导全国数据标准化技术委员会秘书处发布了《高质量数据建设指南》《高质量数据集格式要求》《高质量数据集分类指南》等一系列技术文件和标准草案,并且组织开展试点验证。
国家数据局副局长余英介绍,下一步,国家数据局将充分发挥有效市场和有为政府的作用,以制度创新释放数据要素活力,以设施建设保障数据流通共享,着力打造“数据标注+高质量数据集+模型+应用场景+市场化价值化”的闭环生态,推进数据要素市场化配置改革和“人工智能+”行动同向发力、同频共振。
来源:中国青年报客户端