转自:中国经营网
中经记者 郑瑜 上海报道
在数字经济蓬勃发展的当下,数据标注作为构建高质量数据集的关键环节,重要性日益凸显。
据相关报告显示,随着人工智能大模型技术的迭代,我国数据标注产业产值已突破80亿元,高质量数据建设步入规模化、规范化发展新阶段。
国家发展改革委等部门发布的《关于促进数据标注产业高质量发展的实施意见》(以下简称《意见》),为产业发展指明方向。这也推动了省级层面纷纷响应,积极布局数据标注产业。《中国经营报》记者注意到,国家数据局近期发布多个省市数据标注优秀案例,济宁市融发数字产业园《产教融合创新实践赋能数据标注人才培养》中就涉及了当地数据标注产业发展的探索创新。
济宁市融发数字产业园负责人刘朋接受记者采访时表示:“数据标注工作具有标准化、规模大、技术强、国际化的特点,随着人工智能的发展、应用场景的深入、通用大模型的普及商用,数据标注推进人工智能应用的作用越发突显。当前人工智能发展迅速,数据标注产业将对促进数字经济高质量发展具有重大意义。”
“AI 预标注+大模型协同”破解传统难题
传统的数据标注产业属于劳动密集型产业,面临着人工成本高、效率低、质量难以保证等难题。
济宁市数据标注产业通过采用 “AI 预标注+大模型协同” 的创新模式,实现了技术的突破。
据介绍,济宁市融发数字产业园依托网易 FreeAL 框架研发智能预标注系统,并融合京东言犀大模型技术,成功实现80%基础数据的自动化处理。这一技术的应用,使得标注效率大幅提升,较以往提高50%,成本降低40%,有效推动了数据标注产业从劳动密集型向技术密集型的转型。
从技术层面来看,这种模式解决了过去数据标注精度低、效率低、复杂目标识别难等问题。刘朋告诉记者, “AI预标注+大模型协同” 能够利用深度学习算法对自动驾驶、医疗影像等数据标注精度要求高的领域进行更精准的分析和标注。例如,网易有灵众包平台采用人机协同的方式,将标注任务分配给大量非专业标注员,同时利用AI技术进行预标注和质检,确保标注结果的高质量。
官方信息显示,国家数据局目前已构建起医疗、工业、教育等行业的335个高质量数据集,数据标注总规模达到17282TB,赋能121个国产人工智能大模型研发,引进和培育标注企业223家,标注从业人员达5.8万。
量化人才效能,填补专业人才缺口
国家发展改革委等部门发布的《关于促进数据标注产业高质量发展的实施意见》提出:“要加强标注人才队伍建设。深化产学研融合,鼓励行业联盟、高校、科研院所与企业建立长期合作机制,加大数据标注实践项目、继续教育和公共实训基地建设合作力度。”
据了解,济宁市融发数字产业园以 “双园融通·双境融合” 模式为核心,推动产教融合,通过与济宁市内外20余家院校、80余家上下游企业构建起数据流通、加工、应用于一体的产学研合作体系,已培养 3000余名标注人才。
刘朋表示,在融发数字产业园,学生在校学习2年理论知识后,进入产业园进行2年实践学习。产业园将企业项目拆解为教学模块,提供真实的企业数据标注项目,以企业真实项目数据为基础,将真实项目与实际作业场景引入教学,构建了“知识层—实训层—实战层—呈现层”的金字塔式能力成长路径。
多位产业园学员向记者表示,在学校学习时,更多是从理论层面了解人工智能的基础工作,在做项目时才知道数据标注要精确到每一个物体的类别、位置、运动方向和速度等诸多细节,而且数据标注规则会随着不同的应用场景和算法需求不断调整,不再是机械性的工作,而是需要深度理解业务需求、具备严谨逻辑思维和高度专注力的专业任务,企业导师完全从实际项目出发,大大缩短了学生适应工作岗位的时间。
从“基础服务商”到“数据价值孵化器”
根据山东省《关于加快人工智能赋能重点领域高质量发展的推进方案》,明确到2027年,培育20个服务垂直行业的基础级人工智能大模型,打造50个以上可复制推广的标杆应用场景,推出100个以上融合示范典型案例。
在国家大力推动数字经济发展、培育数据标注产业的背景下,济宁相关产业从技术创新到产业升级的全面价值跃迁的实践,也给数据标注产业发展带来借鉴。
2024年,我国开发或应用人工智能的企业数量同比增长36%,高质量数据集数量同比增长27.4%,有力支撑人工智能训练和应用。利用大模型的数据技术企业、数据应用企业同比分别增长57.21%、37.14%,数据标注正促进人工智能加速发展。
公开信息显示,济宁市先后出台《济宁市制造业数字赋能三年行动计划》《关于大力推动工业互联网建设三年行动计划》《关于深化改革创新促进数字经济高质量发展的若干意见》等文件,为数字经济等新兴产业的发展提供一系列优惠政策和专项资金支持,为数据标注产业的发展创造了良好的外部环境。
近年来,济宁市数据标注产业围绕无人驾驶、印刷质检、图形标注、标注工具研发等积极开展数据标注业务,在自动驾驶、医疗影像、生产加工、经营管理、教育培训等领域实现了数据标注的应用示范。
据刘朋介绍,产业园引入腾讯平台技术与上下游企业落地数据标注项目,未来规划形成“万人、千行、百校、多基地”的数据标注产业,上游通过整合实现数据的集中清洗与预处理,下游为自动驾驶、智慧医疗等领域提供高精度的数据标注服务,既为数据标注产业培育人才,又助力人工智能产业快速发展,逐步从传统“基础服务商” 升级为 “数据价值孵化器”。
下一篇:“家门口”服务站拓宽求职者就业路