更小内存带来更强AI，压缩内存可提升大模型处理任务准确性_知识

更小内存带来更强AI，压缩内存可提升大模型处理任务准确性

创始人

2026-01-02 12:18:00

英国爱丁堡大学与英伟达的联合团队开发出一种新方法，能够压缩人工智能（AI）模型运行时所依赖的内存，从而在保持响应速度不变的情况下，提升模型处理复杂任务的准确性，或显著降低其能耗。这也意味着，更小的内存将带来“更强的AI”，有望打破大语言模型（LLM）性能瓶颈。

图片由AI生成

团队发现，将LLM所使用的内存压缩至原有大小的1/8后，模型在数学、科学和编程等专业测试中的表现反而更好，且推理时间并未延长。这一方法亦有助于模型同时响应更多用户请求，从而降低单个任务的平均功耗。除了节能优势，这项改进还有望使AI更适用于处理复杂问题的系统，或存储速度较慢、内存容量有限的终端设备，例如智能家居产品和可穿戴技术。

AI模型通常通过“思考”更复杂的假设，或同时探索更多可能性来寻找答案。在此过程中，模型需要将已生成的推理线程内容暂存于一种称为“KV缓存”的内存中。随着线程数量增多或线程长度增加，KV缓存的体积会迅速扩大，成为性能瓶颈，拖慢模型输出响应的速度。

为突破这一限制，团队提出了一种名为“动态记忆稀疏化”（DMS）的内存压缩技术。该方法并非保留所有生成的标记（即AI模型处理的基本数据单元），而是动态判断哪些标记对后续推理至关重要、哪些可以剔除。由于从决定删除某个标记到实际删除之间存在的微小延迟，使模型有机会将待删除标记中的有用信息转移至保留的标记中。通过这种方式，DMS使AI模型能够在相同计算资源下进行更深入的“思考”，或探索更多可能的解决方案路径。

测试中，在一项基于美国数学奥林匹克资格赛（AIME 24）设计的数学测试中，压缩模型在相同内存读取次数下，平均得分比未压缩模型高出12分；在由博士级专家编制的专业科学题库中，其表现优于原模型；在评估代码编写能力的平台上，压缩模型的平均得分也提高了10分。

总编辑圈点

这项研究打破了人们“计算资源越多，AI越强”的惯性认知。DMS内存压缩技术就像给AI装上了过滤器，让它学会抓住思考的重点，而非盲目堆砌数据。这种“更少内存，更强智能”的路径，可能从根本上改变AI的研发方向，让高性能AI真正轻量化。未来，复杂的科学计算或许在智能手表上就能运行，家用机器人也可以同时处理多项复杂指令而不卡顿。其实，这也暗合了人类的高效思考逻辑——我们不会记住每个细节，而是提炼关键信息进行推理。这种向人脑学习的选择性记忆机制，也许会比单纯扩大模型规模更早触及通用AI的门槛。

上一篇：浙江俱数申请AI驱动的数据多元融合与灵活交互方法专利，实现多元数据高效灵活融合交互

下一篇：罗振宇2026时间的朋友跨年演讲：在AI时代，成为那个“不可救药的乐观派”

更小内存带来更强AI，压缩内存可提升大模型处理任务准确性

相关内容

热门资讯