更小内存带来更强AI,压缩内存可提升大模型处理任务准确性
创始人
2026-01-02 12:18:00

英国爱丁堡大学与英伟达的联合团队开发出一种新方法,能够压缩人工智能(AI)模型运行时所依赖的内存,从而在保持响应速度不变的情况下,提升模型处理复杂任务的准确性,或显著降低其能耗。这也意味着,更小的内存将带来“更强的AI”,有望打破大语言模型(LLM)性能瓶颈。

图片由AI生成

团队发现,将LLM所使用的内存压缩至原有大小的1/8后,模型在数学、科学和编程等专业测试中的表现反而更好,且推理时间并未延长。这一方法亦有助于模型同时响应更多用户请求,从而降低单个任务的平均功耗。除了节能优势,这项改进还有望使AI更适用于处理复杂问题的系统,或存储速度较慢、内存容量有限的终端设备,例如智能家居产品和可穿戴技术。

AI模型通常通过“思考”更复杂的假设,或同时探索更多可能性来寻找答案。在此过程中,模型需要将已生成的推理线程内容暂存于一种称为“KV缓存”的内存中。随着线程数量增多或线程长度增加,KV缓存的体积会迅速扩大,成为性能瓶颈,拖慢模型输出响应的速度。

为突破这一限制,团队提出了一种名为“动态记忆稀疏化”(DMS)的内存压缩技术。该方法并非保留所有生成的标记(即AI模型处理的基本数据单元),而是动态判断哪些标记对后续推理至关重要、哪些可以剔除。由于从决定删除某个标记到实际删除之间存在的微小延迟,使模型有机会将待删除标记中的有用信息转移至保留的标记中。通过这种方式,DMS使AI模型能够在相同计算资源下进行更深入的“思考”,或探索更多可能的解决方案路径。

测试中,在一项基于美国数学奥林匹克资格赛(AIME 24)设计的数学测试中,压缩模型在相同内存读取次数下,平均得分比未压缩模型高出12分;在由博士级专家编制的专业科学题库中,其表现优于原模型;在评估代码编写能力的平台上,压缩模型的平均得分也提高了10分。

总编辑圈点

这项研究打破了人们“计算资源越多,AI越强”的惯性认知。DMS内存压缩技术就像给AI装上了过滤器,让它学会抓住思考的重点,而非盲目堆砌数据。这种“更少内存,更强智能”的路径,可能从根本上改变AI的研发方向,让高性能AI真正轻量化。未来,复杂的科学计算或许在智能手表上就能运行,家用机器人也可以同时处理多项复杂指令而不卡顿。其实,这也暗合了人类的高效思考逻辑——我们不会记住每个细节,而是提炼关键信息进行推理。这种向人脑学习的选择性记忆机制,也许会比单纯扩大模型规模更早触及通用AI的门槛。

相关内容

热门资讯

3000 亿托底楼市!国家队批... 2026 年 6 月,全国超 70 座城市同步启动国家队收储行动,央行 3000 亿元保障性住房再贷...
2026年全国“四季村晚”夏季... 6月13日,2026年全国“四季村晚”夏季主场活动在贵州省黔东南苗族侗族自治州凯里市苗侗风情园举办。...
【浙商策略廖静池】共识的基础:... (来源:廖市无双)要点核心观点微观视角看,AI Agent的全口径成本仍显著低于人工,渗透率增速放缓...
“赣超”今晚南昌VS萍乡,地铁... 转自:南昌发布今晚8:002026江西省城市足球超级联赛将在南昌国际体育中心举行南昌萍乡届时国体中心...
两名中国球迷在墨西哥遭持枪抢劫... “今天上午,墨方通告我馆,两名涉案嫌疑人中的一人已经落网。”13日,中国驻墨西哥大使馆向新华社记者公...