词元:人工智能时代的数据计量与价值表达
王坚,中国工程院院士、阿里云创始人、之江实验室主任。他首创“以数据为中心”的分布式云计算体系架构,率先提出采用计算作为公共服务的产业模式,主持研发以大规模分布式计算系统“飞天”为核心、拥有自主知识产权的阿里云计算平台,显著提升了中国在全球云计算领域的话语权。
随着人工智能核心概念Token被正式定名“词元”,一组数据备受关注:2024年年初我国日均词元调用量为1000亿,2025年底跃升至100万亿,2026年3月已突破140万亿,两年间增长超千倍。从对话交互到决策执行,人工智能应用场景持续深化,我国AI产业竞争力显著增强,数据供给大幅提升,数据要素价值不断释放。词元作为大模型理解、处理、生成信息的最小单元,贯穿各类智能应用之中,让数据具备可计量、可定价、可交易的属性,正成为丈量智能经济、量化数据价值的全新标尺,深刻影响着日常生活、产业变革与商业未来。
词元的出现与重要价值
Token,在人工智能领域被正式命名为词元,是大模型理解、处理、生成信息的最小单元,早已藏在每一次AI交互、每一项智能应用运行的背后。从日常智能对话、内容生成,到产业端的智能研发、数字决策,词元如同智能时代的通用计量单元,串联起技术、产业与市场,让数据在智能时代具备了可计量、可定价、可交易的特征,成为丈量智能经济、量化数据价值的全新标尺。
长期以来,我们讲信息、讲数据,却始终没有把信息和数据真正区分开。无论是比特还是字节,都是信息时代的良好度量,但一直被用来度量数据,缺少专门面向数据的、符合智能时代特征的计量方式。词元的出现,正是区分数据与信息的重要分水岭。
传统的字节以固定长度表达文字,一个汉字对应两个字节,比如“我喜欢你”4个汉字就是8个字节,这是物理层面的简单记录;而词元是按照人工智能理解世界的方式,把语句拆分成最小处理单元,它不完全遵循人类直觉的字词划分,可能将“我”和“喜欢”各作为一个单元、“你”作为一个单元,以更贴合模型处理逻辑的方式完成语义单元切分。从本质上说,词元首先是数据的计量单位,就像日常生活中的“斤两”,不同内容、不同价值的词元,对应着不同的成本与价值,让数据第一次有了清晰可度量的基础。
词元更让数据价值实现了升华。2017年随Transformer架构进入人工智能视野后,词元让数据拥有了自己的“身份”与“人格”——任何原始数据不经过词元化(Tokenization),就无法进入人工智能模型、无法被智能系统使用。数据要真正产生价值,必须走完三步:第一,把人工智能模型不能直接使用的原始数据转化为词元;第二,在模型中建立词元之间的关联,把零散知识组织成体系;第三,根据应用需求,模型再以词元为基本单元转化为可输出、可应用的内容。这一过程高度依赖技术与算力,而词元能够综合反映数据价值、模型优劣与算力强度,是目前唯一能把三者统一度量的核心单元。
更为关键的是,词元是数据要素市场形成的重要标志。过去数据交易市场难以真正落地,核心原因就是数据价值无法统一计量、认定成本过高,甚至超过数据本身价值。词元作为统一的计量与计价单元,让数据在流通中可以自动结算,大幅降低产业链成本、提升流通效率,让磁盘上的比特真正变成可流动、可交易、可增值的数据要素。就像菜市场离不开“斤两”,词元让数据要素市场具备了运行的基础,标志着数据要素市场从理念走向现实。
词元的核心运行逻辑
词元的运行与消耗,遵循人工智能时代的底层规律,清晰体现出算力、数据与模型三者协同的内在关系。
词元是人工智能模型操作的最小单元。模型的思维链构建、推理过程推演、内容生成输出,所有运算操作的最小对象都是词元,无论输入内容长短、推理逻辑深浅,系统最终都要拆解为词元进行处理,这是词元运行的基础逻辑。
词元消耗由两大核心因素决定:一是内容体量,输入与生成的信息越多,需要处理的词元数量就越多,算力消耗也随之增加;二是推理复杂度,模型思考深度、逻辑链条长度、决策难度越高,处理单个词元所需的算力与时间就越多,对应成本也越高。这也解释了不同场景、不同模型的词元成本存在差异,本质是处理逻辑与技术路径的不同。
词元是人工智能时代的核心“标尺”。软件时代,人们习惯用代码行数衡量一款软件的价值与复杂度;而进入智能时代,单纯强调数据规模与算力大小,并不能真实反映人工智能的发展与应用水平。词元能够综合反映数据价值、模型优劣与算力强度,把三者统一在一个计量单元里,这是其他指标都无法做到的。词元的消费量、流通量与使用效率,就像社会用电量能够反映电气化程度一样,是衡量人工智能产业成熟度直观、准确的指标。
以“小龙虾”(OpenClaw)为代表的智能体,让人工智能应用从碎片走向完整,也让词元的应用逻辑实现关键突破。过去人工智能应用分散割裂,人们需要为不同模型安装不同APP,使用方式与人工智能的技术特性并不匹配;而“小龙虾”这类智能体,彻底颠覆了传统APP模式,打通了从词元、基础模型到实际应用的完整链条,形成“感知——决策——执行”的闭环能力,让人工智能真正找到了与自身技术相适配的应用形态,词元的价值也因此得到充分释放。
词元爆发式增长意味着什么
我国词元调用量在两年间实现超千倍的爆发式增长,这并非简单的数字攀升,而是我国人工智能应用迎来质变、普及进入重要拐点、产业基础持续夯实、数据要素市场全面释放的集中体现。
第一,这标志着人工智能应用实现了质的转型。词元消耗量大幅提升,说明AI应用已从“点一盏电灯”的初级阶段,迈入“用上冰箱、洗衣机”的发展阶段,从简单对话拓展至自主执行、智能决策,使用方式与应用场景都发生了根本性改变。
第二,这意味着人工智能普及迎来重要拐点。过去人们只有打开手机APP、主动输入问题时才会使用AI,而以“小龙虾”为代表的智能体可以7×24小时自主运行,使用人群从技术从业者扩展到全民,使用时长、场景、频次全面提升,人工智能正在变成像水电一样的基础设施。
第三,这反映出单位词元成本持续下降,产业基础更加坚实。词元大规模应用的前提是单位成本可控可降,我国人工智能技术、算力技术持续突破,让单位词元处理成本大幅降低,如同电价下降推动家电普及,词元成本下降为智能经济全面渗透提供了坚实保障。
第四,这印证了数据要素市场进入实质启动阶段。词元的爆发式流通与消耗,证明数据已成为真正流动的生产要素,数据的生产、加工、交易、使用形成完整闭环,过去难以推进的数据交易、数据流通难题,在词元体系下取得突破性进展。
与此同时,词元也让产业竞争焦点全面转向生态构建。相关行业巨头纷纷布局词元赛道,成立专门事业部、推出专用引擎与平台,标志着词元已从技术概念升级为产业价值锚点,人工智能竞争从模型竞速,转向词元计量、定价、流通、应用的全生态竞争。
词元对生产生活的全面赋能
词元不仅是技术层面的基础单元,更全面渗透生活、生产、产业与商业各环节,深刻重塑智能时代的运行规则。
对百姓日常生活而言,词元本身是无感的底层技术,真正改变生活的是基于词元的各类智能应用。就像电本身不被感知,却支撑起照明、家电、娱乐等全部生活场景,词元为智能体、智慧服务、自动化工具提供核心支撑,让公众享受7×24小时智能服务、个性化内容、便捷化办事体验。从付费逻辑来看,词元是AI服务的基础收费单元,如同电费、水费一样清晰透明,而各类智能体大幅降低AI使用门槛,让新手都能轻松上手,推动数字普惠,让每个人都能跟上智能时代步伐。
对企业生产运营而言,词元的意义远不止收费方式,它构建起全链条数据流通体系。企业可清晰追踪词元从原始数据流、模型训练、客户应用到合作伙伴协同的全流程,实现数据流通可计量、可追溯、可自动结算,大幅提升数据使用效率与协作效率。同时,词元推动企业生产组织方式变革,用智能体替代大量重复性、辅助性工作,重新定义工作内容与方式,让员工聚焦创新、决策等高价值环节,也为中小企业、创新型企业打破传统要素壁垒提供了可能。
对产业升级而言,词元推动人工智能从工具革命升级为“革命的工具”,其产业影响远超电商、互联网等传统变革,堪称电力发明以来最重大的产业变革。词元让数据、算法、算力实现清晰的变现路径,重构产业成本结构、商业模式与协作方式,推动传统产业与智能技术深度融合。应用形态从分散的APP模式走向一体化智能整合,数据与服务更加高效统一,市场更趋一体化,为中小企业、创新型企业带来前所未有的发展机遇。
对商业逻辑而言,词元是人工智能商业价值的核心。早期软件产业长期依附硬件、找不到盈利模式,直到微软率先实现软件商业化定价,才真正推动软件产业走向成熟。今天的人工智能产业正经历相似转型,词元正是激活商业价值的关键所在。很多生成式AI项目“叫好不叫座”,根本原因在于词元消耗成本远高于用户获得的实际价值;而智能体能够创造增量价值、解决真实问题,即便词元消耗较大,依然被市场接受。词元让人工智能的投入产出可精准计量,推动商业模型走向可持续。从全球视角看,词元为数据与算力出海提供了天然的结算方式,让人工智能服务突破国界,推动数字贸易、知识贸易打开新空间。
词元发展的安全挑战与应对路径
词元在驱动智能经济快速发展的同时,也面临算力成本、数据安全、应用规范等多重现实挑战,必须坚持在发展中规范、在规范中发展,做到发展与安全并重。
在成本层面,高消耗类AI应用普遍面临商业可持续性压力。OpenAI关停Sora、部分AI视频生成服务调整收费策略,其核心原因都是词元消耗巨大、成本与价值不匹配。这就需要行业像从白炽灯升级到节能灯一样,持续优化模型效率、降低无效词元消耗,在提升应用价值的同时严控成本,让人工智能商业逻辑更加成立。
在安全层面,词元与智能体的广泛普及,带来比传统APP、传统网络服务更大的安全风险。数据流通、智能执行、跨境服务等环节都可能出现数据泄露、违规操作、滥用误用等问题,安全是产业行稳致远的底线。但如同信用卡、手机支付从饱受安全质疑到逐步成熟可靠一样,词元生态的安全能力也会在技术迭代、实践检验中不断完善。
应对安全挑战,需要多方协同发力。国家层面出台安全使用指南,划定发展底线与规则;地方政府出台扶持政策,规范引导智能体生态健康发展;技术团队主动搭建安全框架,强化技术防护能力;全行业在发展中发现问题、解决问题,推动技术在迭代中完善。词元的发展,必将催生全新的安全产业,形成“发展促安全、安全保发展”的良性循环。
词元是智能时代的基础单元,是数据要素市场的核心基石。面向未来,我们应深刻理解词元的内涵与价值,尊重技术发展规律,把握智能经济变革机遇,以词元为抓手激活数据资源、释放智能红利,让词元真正成为推动智能经济高质量发展、开启数据要素新时代的核心力量。
来源:学习时报
作者: 王坚
下一篇:高志丹会见世界反兴奋剂机构主席