【环球时报报道 记者 郭媛丹】据央视报道,全球最大人工智能(AI)大模型API聚合平台OpenRouter发布的最新数据显示,截至3月15日,中国AI大模型的周调用量达到4.69万亿Token,连续第二周超越美国,全球调用量排名前三的位置更是被中国模型包揽。在对中国AI大模型高速发展感到兴奋的同时,也有不少民众对“Token”这个频繁出现在AI相关新闻里的外来词汇感到陌生。它到底是什么呢?
奇安信安全专家张勇23日在接受《环球时报》记者采访时表示,Token中文翻译过来是“词元”,是“AI消化文字的最小单位”。为更方便理解,张勇用吃饭做比喻:“就像人吃饺子,不会一口吞下一整盘,而是一个一个吃。AI处理文字时,也先把句子切成一个个它能‘嚼得动’的小块,这些小方块就叫Token。”对AI切割长句子的过程,张勇进一步解释说,大致分为3种情况。第一,1个词是1个Token,比如“苹果”就是1个Token。第二,1个字是1个Token,类似“啊”“呀”这种单字。第三,有些词会被切成多个Token:比如“deeplink”这个英文单词,可能会被切成“deep”“link”两个Token,生僻字也常被切成好几个Token。
张勇表示,在AI时代,其实Token有非常高的“含金量”:“因为现在的大模型都是按Token收费的,而不是按‘字数’或‘提问次数’收费。”张勇举例说:“ 比如向大模型发问‘你好’,就可能花掉2个Token;模型回答一大段,花掉500个Token。钱包里扣的就是Token总数。”
张勇说,与人类一口气说话一样,大模型一次能处理的内容也有上限(上下文长度),比如128k Token。“这个上限不是你提问的字数,而是你的提问+模型回答的总Token数。所以如果聊的内容太多,模型就会‘忘记’最早说的话,因为Token窗口被挤满了。”
既然人类与大模型的互动是按Token收费,有没有便宜的窍门?张勇表示,和大模型对话时,尽量精简提示词,去除“礼貌废话”和啰嗦用语,比如“你好”“感谢”等,这样可以显著节省Token,因为大模型不需要礼貌用语来理解任务,每句客套话都在消耗输入和输出的Token。此外,用英文提问通常比中文更省Token,因为英文单词的Token密度更高。
也正因如此,Token调用量被用来衡量AI大模型的活跃度。张勇表示,不管是我们问AI问题,还是AI给出回复,都会被拆成一个个Token来运算,Token调用量越高,说明大模型被用得越多、越普及。
与此同时,Token调用量还是AI应用活跃度的关键指标,Token调用量越高,意味着模型被用得越多,AI的市场热度就越高。就像看一款App火不火,要看它的用户“总使用时长”,Token调用量就是AI的“总使用时长指标”。
接受《环球时报》记者采访的专家23日表示,中国AI 的使用规模越来越大,普及速度会非常快,未来发展潜力巨大。 摩根大通预测,中国的AI推理Token消耗量将从2025年的约10千万亿增长至2030年的约3900千万亿,5年间增长数百倍。