(记者 张苏慧)7月26日-29日,WAIC 2025在上海举行。在中国电信展台上,“方言语音高质量数据集”吸引了不少参观者驻足——当人们享受着智能手机精准的语音识别、惊叹于自动驾驶汽车在复杂路况中的从容表现、或是依赖电商平台“猜你喜欢”的精准推送时,或许未曾想到,这些人工智能(AI)应用背后,正依赖着一个庞大而基础性的产业支撑,这正是数据标注。
图为中国电信展台展示的“方言语音高质量数据集”
数据制约大模型发展
当前人工智能产业正陷入一场严峻的数据饥渴危机——斯坦福AI指数最新报告显示,全球AI数据需求正以每年230%的指数级速度激增,而大模型参数规模更保持着每12个月增长10倍的惊人速度。这种“数据饥渴”背后暗藏隐患:若没有高质量数据的持续“喂养”,再先进的算法也终将沦为无米之炊。更严峻的是,数据标注成本已占AI模型训练总成本的35%以上,超越算力投入成为最大开销项。OpenAI内部测算表明,GPT-4训练消耗的10万亿token中,超过60%需经过人工标注处理,这意味着每训练一个前沿大模型,背后都是海量人工标注资源的支撑。
因此,在国内,数据标注产业呈现爆发式增长。IDC预测2025年中国AI数据服务市场规模将突破120亿元,年复合增长率高达47.2%。国家数据局副局长余英在2025数博会上明确表示:数据,特别是高质量、多模态、精标注的数据,是人工智能发展的不竭动力,并宣布构建数据标注+高质量数据集+模型+应用场景+市场化价值化闭环生态的战略方向。
高质量数据集是技术创新燃料
当前,虽然业内专家普遍认为,数据资源的短缺成为制约大模型持续创新的核心瓶颈,但一个不容忽视的现实是,大多数行业大模型正面临着训练数据质量缺陷的重大挑战。正如蚂蚁集团CTO何征宇在OceanBase开发者大会上提出,数据的广度与深度直接限制了大模型能力的天花板。面对这一行业痛点,中国电信深刻认识到“无高质量数据,则无强人工智能”的发展规律,因此在打造高质量数据集下足了功夫。
此次中国电信展台展出的“方言语音高质量数据集”依托中国电信发布的星海•多模态数据标注平台,通过AI辅助自动化标注技术,准确率超过92%,效率相比人工提升了17倍。依托这一技术,可以构建50万小时的高质量方言数据集,打造方言数据模型,赋能各种智能热线,使其能听得懂不同区域、不同民族的群众语言。
此外,中国电信四川公司与成都市国家数据标注基地牧山园区合作,从地方应用痛点出发,利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型。支撑落地政务服务热线、医疗问诊、文化导引、助农直播等场景,真正“听懂”群众需要,提升座席人员工作效率超20%,该项目入选GSMA全球移动通信系统协会运营商实践AI大模型赋能垂直行业标杆案例。
从国家战略层面看,数据标注产业正迎来政策红利期。国家数据局正在指导合肥、成都等7个城市建设数据标注基地,通过先行先试探索产业发展的最佳路径。数据显示,截至今年上半年,这7个数据标注基地已累计建设数据集524个,服务大模型163个,初步形成了规模化发展态势。在这一国家战略布局中,中国电信积极参与国家级数据标注基地建设,目前已成功在成都、沈阳、保定3个标注基地实现技术落地。以河北保定项目为例,中国电信保定分公司联合保定市数据局、高新区、中电信人工智能科技(北京)有限公司,在技术创新、行业赋能、产业培育、人才培养、基地运营等五个维度展开全方位合作。项目团队围绕大规模多模态数据,打造智能数据标注生成管理平台,实现数据从采集到模型部署的全流程自动化,大幅提升数据集生产效率,降低AI模型训练门槛。
值得一提的是,中国电信的《多模态数据自动化标注与增强平台》和《视觉大模型自动标注一站式生产运营》成功入选国家数据局数据标注优秀案例,不仅展现了中国电信在数据标注技术创新和应用落地方面的领先实力,也为人工智能产业提供了高质量数据支撑的典型范例。
高质量数据集赋能AI+场景应用落地
目前,中国电信星辰MaaS平台构建起“算力-模型-数据-工具-应用”全链条AI服务能力,集成超80个行业大模型以及50多个高质量数据集,能够一站式满足用户多云算力调度、数据标注处理、大模型训推、行业智能体应用需求,深度赋能央企AI+场景应用落地。已在中车集团等10余个央企落地应用,涵盖能源、工业、交通、住建等多行业。
在新型工业化领域,利用“翼云控+工业大模型”推动产线智能改造,大幅提高智能加工、物流分拣、视觉质检等环节的生产效率。例如,在某大型制造业企业中,通过部署星辰工业大模型,设备故障率降低了30%,生产效率提升了25%,产品次品率降低了15%,为企业节省了大量的成本,提升了市场竞争力。
在教育领域,打造校园帮办大模型解决学校系统人性化难题。为院校打造专属问答助手,整合了知识管理、智能问答和数据分析等一体化服务功能,使师生服务效率提升40%,知识文档优化率提升40%,目前已落地广西、甘肃等多所院校,服务数万名师生。心理健康大模型则通过多轮情感对话赋能校园心理健康,为学生提供情绪疏导服务。据数据显示,该大模型专业度测评高达91.7%,心理服务应答效率提升60%。
在交通领域,与中车集团合作,通过“息壤”平台提供算力调度支持,定制开发整车仿真、安全监测、乘客服务等12个场景的行业大模型,助力中车的核心生产环节智能化升级,共同打造交通领域的行业应用标杆。
在政务领域,打造的星辰政务大模型已在上海、江苏等多地应用落地,大幅提升热线运营效率和市民感知,未来将面向全国推广。
在应急领域,与依图科技联合推出应急预警视觉大模型,可快速识别出180+风险隐患和灾害场景,广泛服务于各级应急管理单位和应急救灾工作。
图片来源:林碧涓/摄