国家数据局：国内多数模型训练使用中文数据占比超60%_热点_浩江知识网

国家数据局：国内多数模型训练使用中文数据占比超60%

创始人

2025-08-19 08:33:11

0次

记者从国家数据局获悉：中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%，有的模型达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能快速提升。

在人工智能时代，Token（通常所说的词元）是处理文本的最小数据单元。国家数据局局长刘烈宏介绍，2024年初，我国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。（记者王云杉）

上一篇：“我们非常有信心重建家园”

下一篇：7月，江苏交警实名曝光69人并采取终身禁驾

相关内容

热门资讯

原民航总局副局长闫志祥逝世，享... 据中国民航大学校友会消息，原中国民用航空总局副局长闫志祥同志于2025年8月17日凌晨离世，享年92...

古代的嫔妃为甚大都无法怀孕？真... 在古代的时候，皇帝是处于权力金字塔最顶端的人物，而作为皇帝伺候他的嫔妃也是非常多的，最有名的就是“三...

最新或2023（历届）村干部述... 山路交叉口不安信号灯，78路就不跑。后经多次协调交通局和公交公司，还有电业局。最终通了公交，安上了路...

古代的嫔妃为甚大都无法怀孕？真... 在古代的时候，皇帝是处于权力金字塔最顶端的人物，而作为皇帝伺候他的嫔妃也是非常多的，最有名的就是“三...

最新或2023（历届）村干部述... 治工作在我村也呈良好态势，民事纠纷逐年减少，文明新风初步显现出来，人民勤劳、安居乐业。配合办事处组...