更小内存带来更强AI,压缩内存可提升大模型处理任务准确性
创始人
2026-01-02 12:18:00

英国爱丁堡大学与英伟达的联合团队开发出一种新方法,能够压缩人工智能(AI)模型运行时所依赖的内存,从而在保持响应速度不变的情况下,提升模型处理复杂任务的准确性,或显著降低其能耗。这也意味着,更小的内存将带来“更强的AI”,有望打破大语言模型(LLM)性能瓶颈。

图片由AI生成

团队发现,将LLM所使用的内存压缩至原有大小的1/8后,模型在数学、科学和编程等专业测试中的表现反而更好,且推理时间并未延长。这一方法亦有助于模型同时响应更多用户请求,从而降低单个任务的平均功耗。除了节能优势,这项改进还有望使AI更适用于处理复杂问题的系统,或存储速度较慢、内存容量有限的终端设备,例如智能家居产品和可穿戴技术。

AI模型通常通过“思考”更复杂的假设,或同时探索更多可能性来寻找答案。在此过程中,模型需要将已生成的推理线程内容暂存于一种称为“KV缓存”的内存中。随着线程数量增多或线程长度增加,KV缓存的体积会迅速扩大,成为性能瓶颈,拖慢模型输出响应的速度。

为突破这一限制,团队提出了一种名为“动态记忆稀疏化”(DMS)的内存压缩技术。该方法并非保留所有生成的标记(即AI模型处理的基本数据单元),而是动态判断哪些标记对后续推理至关重要、哪些可以剔除。由于从决定删除某个标记到实际删除之间存在的微小延迟,使模型有机会将待删除标记中的有用信息转移至保留的标记中。通过这种方式,DMS使AI模型能够在相同计算资源下进行更深入的“思考”,或探索更多可能的解决方案路径。

测试中,在一项基于美国数学奥林匹克资格赛(AIME 24)设计的数学测试中,压缩模型在相同内存读取次数下,平均得分比未压缩模型高出12分;在由博士级专家编制的专业科学题库中,其表现优于原模型;在评估代码编写能力的平台上,压缩模型的平均得分也提高了10分。

总编辑圈点

这项研究打破了人们“计算资源越多,AI越强”的惯性认知。DMS内存压缩技术就像给AI装上了过滤器,让它学会抓住思考的重点,而非盲目堆砌数据。这种“更少内存,更强智能”的路径,可能从根本上改变AI的研发方向,让高性能AI真正轻量化。未来,复杂的科学计算或许在智能手表上就能运行,家用机器人也可以同时处理多项复杂指令而不卡顿。其实,这也暗合了人类的高效思考逻辑——我们不会记住每个细节,而是提炼关键信息进行推理。这种向人脑学习的选择性记忆机制,也许会比单纯扩大模型规模更早触及通用AI的门槛。

相关内容

热门资讯

心智观察所:中国AI软件如何走... 另一边则是Palantir——一家起家于政府与情报系统、长期以“定制化”“重交付”著称的公司,却在A...
世界献血日宣传活动策划方案 世... 世界献血日宣传活动策划方案为了纪念和庆祝“世界献血日”,推动我市无偿献血事业的发展,拟于6月14日前...
最新或2023(历届)学校端午...   最新或2023(历届)学校端午节包粽子活动策划方案  一年一度的端午节快到了,为迎接端午节的到来...
最新或2023(历届)初中毕业...  最新或2023(历届)初中毕业典礼活动策划方案  一、目的  三年来,我们在学习中不断成长,不断完...
“兰州太平鼓”非遗传人创新表演... “兰州太平鼓”非遗传人创新表演 “刚柔并济”展黄河之滨神韵中新网兰州12月27日电 (高康迪 高展 ...