(来源:衢州日报)
转自:衢州日报
东杰
5月22日,《衢州日报》头版头条刊登了《建好“数据粮仓” 衢州培育AI产业新动能》一文,欣喜地发现智慧新城入选浙江省首批高端数据标注基地试点后,衢州智慧谷科技园已集聚了一批与人工智能相关联的企业,开展数据采集、数据标注、数据集生成、具身智能训练等工作。这意味着在“词元经济”这个风口,衢州迈出了坚实的步伐。
任何一个新度量衡总是与新技术、新质生产力相伴而生。电器使用按耗电量收费、发送电报按字数收费、打个电话按通话时长收费、宽带进家按上网时间收费,“时长”“千瓦时”“字节”“流量”等计量单位,与我们的工作、生活联系紧密。如今伴随着AI技术的广泛运用,词元成了数字经济发展的又一个重要价值锚点。在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏明确将Token解释为“词元”,并将它定义为大模型处理信息的最小语义单元和成本核算单位。
天下没有免费的午餐。在AI“大锅饭”阶段,几乎没人意识到廉价词元与我们的关联,如今AI成了通用技术,词元成了一种重要的资源。日常数据(如语音、文字、图像、行为记录等)通过数据采集与结构化、数据清洗与标注、词元化后,被AI服务调用,作为输入或输出,依托平台实现付费使用的商业化闭环。有关方面的公开数据显示,2024年初,我国日均词元调用量为1000亿,到2025年底,上升至100万亿,而截至2026年3月,已突破140万亿,两年时间内增长超过1000倍。
词元消耗量剧增只是数字经济产业变化的一个缩影,标志着一个产业新阶段的悄然切换。在出售基于数据的AI服务、按词元计费的商业化模式下,高质量的原始数据是词元的源头活水。在数据产业化的完整链条中,数据采集、数据标注、数据集生成、具身智能训练等,是将数据资源转化为可交易的词元资产、让AI变得更聪明的基础性工作。
举个现实例子。截至目前,衢州市拥有各级非遗名录1380项,通过对这些非遗项目的挖掘整理并进行相应的数字化处理,与相关商业平台合作后就成了一笔可观的词元资产。各行各业的管理、生产、销售、运营都会产生大量数据,经过清洗、标注,生成数据集,就有可能转化成可观的词元资产。
产业数字化与数字产业化本质上是同一主题的两个侧面,而数字资产的价值挖掘,本是数字产业化不可或缺的内容。“词元经济”的风来了,期待衢州的数字经济产业迎来新一轮迭代。