华为开源 SINQ AI 量化技术:显存占用最高削减 70%
创始人
2025-10-06 09:14:38

IT之家 10 月 6 日消息,华为苏黎世计算系统实验室于 9 月 26 日发布全新开源量化(Quantization)技术 SINQ(Sinkhorn 归一化量化),旨在大幅降低大语言模型(LLM)的显存需求与运行成本。

这项技术无需复杂的校准过程,可直接集成至现有工作流,并且其代码已通过 Apache 2.0 许可证在 GitHub 和 Hugging Face 上开放,允许任何组织免费使用、修改和商业化部署。

SINQ 的核心优势在于其卓越的压缩性能。根据测试,该技术能将不同规模模型的显存占用普遍削减 60% 至 70%。这意味着,过去需要超过 60GB 显存才能运行的大型模型,现在仅需约 20GB 的环境即可部署。

此前需要企业级 GPU(如英伟达 A100 80GB 或 H100)计算的任务,现在仅用一张售价约 1600 美元的消费级显卡(如英伟达 RTX 4090)便可胜任。对于云端用户而言,每小时的算力成本也随之锐减。

该技术通过两大创新实现了性能突破。首先,SINQ 采用“双轴采样”策略,替代了传统的单尺度因子量化,通过分别为矩阵的行和列设置独立的缩放向量,更灵活地分散量化误差,有效抑制了异常值的影响。

其次,SINQ 引入了一种受 Sinkhorn 迭代启发的快速归一化算法,用于平衡矩阵行列的标准差,从而最小化“矩阵不平衡”现象,提升了量化后的模型精度。

在性能评估中,SINQ 的表现全面超越了多种主流的免校准量化方法(如 RTN、HQQ)。在处理 Qwen3、LLaMA 等多种主流模型时,SINQ 在 WikiText2 等标准测试集上显著降低了模型的困惑度(Perplexity),其性能表现接近甚至达到了需要数据校准的方案水平。

此外,SINQ 的量化速度极快,比 HQQ 快约 2 倍,更是比 AWQ 快 30 倍以上,充分满足了研究与生产环境中对效率的严苛要求。

IT之家注:量化一种模型压缩技术,通过降低模型内部数据的精度来减小其体积和显存占用。好比将一张高精度的照片(如浮点数)转换为一张文件更小、但肉眼看差别不大的普通照片(如整数),从而让模型运行得更快、更省资源。

困惑度(Perplexity)示评估语言模型性能的常用指标。它衡量的是模型对于一段新文本的“惊讶”或“不确定”程度。困惑度越低,表示模型对文本的预测越准确,语言能力越强。

参考

相关内容

热门资讯

未来三天,辽宁多阵雨或雷阵雨天... (来源:东北新闻网)  辽宁省气象台发布全省天气预报:  预计未来三天,全省多阵雨或雷阵雨天气。21...
夏至日,元稹来大围山玩漂流 |...   夏至是二十四节气中的第十个节气,此时太阳直射北回归线,我国南方各地暑气蒸腾。唐代诗人元稹的《咏廿...
本想帮女儿缓解腿疼,母亲一个举... 一个看似温和的艾灸热敷贴竟让5岁女孩的左腿三度烧伤最终不得不接受手术治疗这个案例提醒大家需警惕低温烫...
以总理及防长被曝命令以军在黎巴... 当地时间6月20日,以色列国防军表示,以军正继续在黎巴嫩南部“安全区”内展开军事行动,目前的重点是打...
夏至:梅雨深处“半夏生”,有毒... 夏至一到,白昼走到一年里的高处,江南也进入梅雨深处。河浜边的草木被雨水洗得发亮,田埂、菜地边、林缘和...