炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:大象新闻)
今日金价,一克1000.06元;
95号汽油,每升8块5毛7;
电费是阶梯计价,家庭用电最多每千瓦时8毛9;
克、升、千瓦时——单位一旦确定,便可以被标注价格,而价格决定了消费,也潜移默化地塑造着每个人的生活。大多数时候,我们并不关心这些单位本身,只要它们足够稳定,稳定到可以比较、可以结算,它们就会默默隐藏自己,退回到缴费单和购物小票背后。
但现在,一种全新的、陌生的计量单位,正浮出水面,走入更多人的生活。
它叫Token。
如果你最近玩过、听说过,甚至自己试着调用过各种 AI 助手或“智能体”(比如近期流行起来的 Openclaw “小龙虾”),那么你应该已经和它打过照面了。你与 AI 的每一次对话,无论是让它回答一个问题、写一封邮件,还是总结一篇论文,后台那个默默跳动的计价数字,单位就是Token。
Token,就是AI世界的“克”“升”和“千瓦时”。
Token到底在计量什么?
在OpenAI的官方页面上,用一句话简单地概括了Token:Token是自然语言的数学表示。
在中文里,Token常被翻译为“词元”,你可以将它理解成为大模型用来处理自然语言的基本单位,或大模型处理信息的最小信息单元。一段话、一个问题在进入 AI 模型被计算机处理前,首先要被“分词器(Tokenizer)”拆分成一个个Token。
一个Token可能是一个标点、一个汉字、一个英文单词,或者一个常见的词组——这取决于不同 AI 模型分词器的设计。比如“朋友买了西瓜手机!”可能被拆为“朋友”“买”“了”“西瓜”“手机”“!”,“Transformer”可能被拆成“Trans”“former”。
这些被拆分好的Token,对于你我来说是有意义的文字,但对于大模型而言,它并不认识,更不理解。为了让AI“理解”,大模型会先给每个Token分配一个数字编号,然后将这个编号转化为一组数字坐标(向量)。这个坐标决定了AI如何“理解”这个词。
更重要的是,AI理解任何一个词,都要看它和其他词的关系。比如“西瓜”这个词,AI在训练中既见过它和“手机”“汽车”“公司”“发布会”一起出现,也见过它和“吃”“食物”“好吃”一起出现。当AI看到“西瓜手机”这个组合时,它会通过“汽车”这个词的坐标,来调整“西瓜”在当前这句话里的含义——让它的坐标更接近“品牌”,远离“食物”。
AI的整个“思考”过程,就是计算一整句话里所有Token坐标之间的复杂关系。它不会死记硬背“小米=品牌”或“小米=食物”,而是根据上下文动态计算。
图源:用AI生成的聊到这里,你还会以为,Token的消耗就是你输入和输出的字数简单相加吗?接下来,我们通过一次普通对话,看看Token到底是如何被消耗掉的。
我们让AI写一封信给十年后的自己:
图片来源:自己截取的指令输入十几个字,AI回复四五百字,看起来不过几百个Token,但事实上消耗的Token远不止屏幕上那几行字:
系统预设指令(System Prompt):在你开口之前,AI已经被输入了一段看不见的指令,被用来规定和你聊天的AI的身份,语气,回复用词特征和安全边界。很多人会感觉不同公司的AI产品有不同的性格特征,秘密就在这里。这段指令不会显示在对话中,但是也参与了模型的计算,会消耗掉一部分Token。
对话的历史上下文(Context):如果你不是第一次提问,模型通常就需要考虑之前的上下文信息,才能知道整个对话在聊什么,保证对话的连续性。所以之前的提问与它之前的回答,都会进入最新这轮对话的计算。也就是说,对话越长,对话的轮次越多,最新的单轮请求消耗的Token也就越多。
思考过程(Reasoning):这是更隐蔽的消耗,很多具备深度推理模式的模型,在回答之前,它会进行一轮内部计算去比较推演不同的回答,最终将它认为最优的回答呈现出来。这些不展示出来的“思考步骤”,同样消耗资源。
总之,Token计量的,并不只是你看到AI模型给出的答案,而是生成这个答案所需的全部计算资源。而进入以Openclaw为代表的agent场景,这种Token的消耗会被指数级扩大。
比如让一只小龙虾替你干活,把“帮我整理一下文件夹”这句话甩给它之后,它可能需要先读懂这个要求,然后拆解成十几个子任务,每个子任务分别调用一次AI,每次调用都带着完整的系统指令和上下文,必要的时候还要反复检查有没有做对,是否需要修正。
这背后可能是几十轮对话、几万个 Token 的连锁消耗,这也是它看起来只干了点普通的活,但却格外消耗 Token 的原因。
为什么“输出Token”
比“输入Token”贵6倍?
关于Token的价格,很多人可能没什么感知,毕竟无论和哪个AI聊天,对话Token的消耗都打包在了免费额度或者订阅制里,很难直接感受到。
我们以OpenAI为例,来研究一下它的价格表:
可以看出,模型越强大,Token越贵,从Nano到标准版,每百万Token价格差距高达十倍。这很容易理解:参数规模越大、模型能力越强,越能解决越复杂问题的模型,Token的价格当然越贵。
而对比起不同公司,同为目前顶级的AI模型,每百万TokenGPT-5.4 的报价是15美元,Claude Opus 4.6 是25美元,Gemini 3.1 Pro的报价则根据prompt长度不同列出了12美元和18美元两个价格。差距依然存在,这里的定价策略就比较复杂了,公司的定位与商业模式,模型的成本、受众、能力都会有所影响。
这些道理都很容易理解,但真正的谜题还不是这个。仔细看看,同一个模型的“输入Token”和“输出 Token”竟然也存在6倍的定价差距,这是怎么回事?
输入(prefill)的时候,AI 要理解你的全部问题,每个词都要和其他所有词做关联计算(即“自注意力机制”,计算量会随着文本长度的增加急剧增长);而输出(decode)时,模型已经将输入的内容分析计算完毕,只需要把结果一个字一个字“吐”出来即可,似乎应该更轻松才对。
其实,答案并不在计算量,而在计算效率上。
处理输入时,所有的Token都是同时送入处理器的,成千上万个计算核心并行运行,这是大规模的矩阵乘矩阵运算,GPU本来就是为了这种大规模并行计算而设计的。所以在应对这类任务时,计算效率极高,甚至可以说在允许范围内,Token输入越长,越容易让GPU的计算核心接近满载工作状态。
但输出的时候,情况截然相反了。模型必须一个Token 一个Token生成回答,每一个都需要依赖上一个生成的结果,无法并行展开。每次生成,模型都需要从显存中读取一次参数,同时结合已经生成的上下文进行计算,整体更接近矩阵乘向量的运算。
这个过程的瓶颈取决于内存带宽,也就是说,GPU绝大多数时间没有在计算,而是在等待数据从显存被传过来,真正做计算的时间占比仅有1%~5%,计算效率骤降。
用更准确的话说,处理输入是计算密集型(compute-intensive)工作,GPU在做它最擅长的事,生成输出是内存带宽密集型(memory-bound)工作,GPU的计算核心大部分时间在空转等数据。
所以,输出Token的高昂价格,本质上是在为一块每小时租金几美元的芯片,以不到百分之一的效率运转而被迫等待的时长付费。
这也就是为什么即使是同一种模型,输出Token的价格会比输入Token贵那么多,这是算力和内存带宽之间根深蒂固的不对称不匹配。
GPU的计算能力在飞速增长,但是显存的传输速度却跟不上,这种矛盾由来已久。它源于冯·诺依曼架构中计算与存储分离带来的瓶颈问题,而几乎所有现代计算机都没能彻底绕开它。
算力每一代翻倍,内存带宽的进步速度大约只有它的一半,这意味着每一代新芯片出来,处理输入会变得更快更便宜,但生成输出的改善幅度要小得多。
业界当然有在试图缓解这个问题。例如投机采样(Speculative Decoding)让一个小模型先快速猜出几个词,再让大模型一次性验证,把串行计算的一部分变成并行计算。又或者 MoE 架构让每个Token只激活一小部分参数,减少每次需要搬运的数据量。
这些技术都在缓解症状,但没有一种能根治病因,只要计算和存储还是物理上分开的两个东西,数据搬运的瓶颈就会一直存在。这也就是为什么Groq、Cerebras、Etched这些推理芯片创业公司,本质上都在赌自己能绕开这个七十多年前的设计遗产。
Token价格到底由什么决定?
为什么近几年一直暴跌?
在聊这个问题之前,我们要先理清楚Token的成本由什么决定。
我们可以用一个简单的思路来分析,以目前数据中心主流使用的Nvidia H100 为例,云租赁的价格大约在每小时2.5~3.5美元之间。这笔钱里,电费的花销占10%~20%,水冷、网络、运维这些加在一起也没有多少,大头还是在芯片本身的采购成本、硬件折旧以及服务商的利润上。
一度电能产出多少Token,和电本身的关系不大,主要取决于这度电供给了什么芯片、跑的是什么架构、优化做到了什么程度。同样一度电,喂给一块在处理输入时满载运行的GPU,和一块在生成输出时空转百分之九十九的GPU,处理的Token数就可以差出数量级。
所以当我们问“Token的价格由什么决定”时,最准确的回答是:由一块芯片在单位时间内能处理多少 Token 决定。
问题来了:既然Token的价格不是被某一个因素单独决定的,而是由芯片物理结构、能源成本、模型架构甚至是市场竞争共同作用的结果。那它的价格按说应该相对稳定,毕竟电费不会一年跌十倍,芯片也不会每个季度降价一半。
那么,为什么这几年Token的价格在暴跌?
2023年初,要达到GPT-4 水平的性能,每百万Token大约要20美元。到2026年,同等性能已经降到了 0.4美元附近,五十倍的差距是怎么来的?
这并非来自某一项技术的突破,而是几个因素在同时影响,其影响结果是以乘法体现的。
首先是硬件在更新换代,GPU更快更便宜了,H100的云租赁价格也从2023年峰值的接近8美元/小时降到了2.5~3.5美元。
然后是软件的优化,连续批处理和 PagedAttention 这类改进,提高了 KV cache 的利用率和并发能力,在合适的负载下,吞吐提升可达数倍。
接下来,模型架构也在变聪明,混合专家架构(MoE)让模型不用为处理每个 Token 动用所有参数,这一项又能将推理成本显著降低。
单独每一项看都不算太惊人,乘起来效果就很明显,硬件一层、系统一层、架构一层,再加上开源带来的价格竞争,推理成本就被一层层压了下去。
同时,模型本身在用更少的参数做到更多的事。过去的模型往往依赖不断扩大参数规模来提升能力,但近两年,更多数据、更好的训练方法以及更成熟的架构设计,使得较小规模的模型也能逼近甚至在部分任务上超过上一代更大的模型。
这意味着,同样的能力不再需要同样规模的计算资源。模型变小,带来的不仅是显存占用下降,更重要的是每一步推理所需的数据搬运和计算开销都随之降低了。
所以Token便宜了。
便宜了多少?
或许可以拿我们更熟悉的手机流量来对比。从 2014 年到现在,中国的手机流量价格降了几十倍甚至几百倍。虽然大家的话费账单差距不大,但流量便宜后催生的各色使用方式,网络应用、短视频、手机游戏,已经完全改变了我们的生活。
尽管 Token 并不算一个完美的计量单位,价格细节繁复,变化太多,大多数用户对它无比陌生,但它也应该也会和流量走上同一条路,可能速度更快,可能带来的变化更大。
克、升、千瓦时,从现在开始,你或许需要多认识一个计量单位——Token。