主打一个快！腾讯开源0.3B端侧模型，手机耳机都能跑_热点

主打一个快！腾讯开源0.3B端侧模型，手机耳机都能跑

创始人

2026-02-11 00:14:57

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：智东西）

智东西

作者李水青

编辑心缘

智东西2月10日报道，今日，腾讯混元开源一款面向消费级硬件场景的“极小”模型HY-1.8B-2Bit，等效参数量仅有0.3B，内存占用仅600MB，比常用的一些手机应用还小，可本地化部署于手机、耳机或智能家居等设备应用。

该模型基于首个产业级2比特（Bit）端侧量化方案，通过对此前混元的小尺寸语言模型HY-1.8B-Instruct进行2比特量化感知训练（QAT）产出。这一模型对比原始精度模型等效参数量降低6倍，沿用原模型全思考能力，可根据任务复杂度切换长/短思维链；同时在真实端侧设备上生成速度提升2-3倍。

▲ HY-1.8B原始精度模型生成效果▲HY-1.8B-2Bit模型生成效果，2bit量化后的模型速度明显更快

比特是计算机存储的最小单位，一般模型的精度有2比特、4比特、8比特、32比特等表示方法，数值越大模型的精度更高，所占的内存就越大。虽然2比特量化的精度损失较大，但通过QAT和先进的量化策略，团队已经能让2比特模型接近全精度模型的性能，对比4比特PTQ模型版本数学、代码、科学等指标上表现相当。

对于原始模型大小只有1.8B，量化bit数只有2bit的HY-1.8B-2Bit，混元团队采用了量化感知训练策略，从而显著提升了量化后模型的性能。腾讯混元还通过数据优化、弹性拉伸量化以及训练策略创新三个方法，来提升HY-1.8B-2Bit的全科能力。

部署方面，腾讯混元提供了HY-1.8B-2Bit的gguf-int2格式的模型权重与bf16伪量化权重，对比原始精度模型，HY-1.8B-2Bit实际模型大小直降6倍，仅有300MB，能够灵活用于端侧设备上。该模型也已在Arm等计算平台上完成适配，可部署于启用Arm SME2技术的移动设备上。

在MacBook M4芯片上，HY-1.8B-2Bit固定了线程数为2测试了不同窗口大小下的首字时延和生成速度，模型选定fp16、Q4、HY-1.8B-2Bit三种gguf格式作为对比，首字时延在1024输入内能够保持3~8倍的加速，生成速度上常用窗口下对比原始模型精度，HY-1.8B-2Bit能够实现至少2倍稳定加速。

在天玑9500上同样进行了测试，对比HY-1.8B-Q4格式首字时延能够加速1.5~2倍，生成速度加速约1.5倍。

项目链接：

https://github.com/Tencent/AngelSlim

模型地址：

https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

技术报告：

https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

结语：模型“瘦身”，加速端边侧智能发展

HY-1.8B-2Bit的推出标志着腾讯在小型化、多语言和端侧AI上的新突破。它不仅在性能上接近更大规模的模型，还兼顾了速度、内存和隐私的平衡。

从去年中阿里的Qwen-Embedding-0.6B、谷歌的0.27B的Gemma 3、0.3B的EmbeddingGemma，再到今年初腾讯0.3B的HY-1.8B-2Bit，越来越多的小尺寸模型可供开发者选择，推动RAG、语义搜索等应用不断下沉至个人设备。

当前，HY-1.8B-2Bit的能力仍受限于监督微调（SFT）的训练流程，以及基础模型本身的性能与抗压能力。针对这一问题，混元团队未来将重点转向强化学习与模型蒸馏等技术路径，以期进一步缩小低比特量化模型与全精度模型之间的能力差距。

上一篇：空军八一飞行表演队圆满完成新加坡航展任务经空中加油“一站式”回国

下一篇：香港首批合规稳定币牌照预计将于 3 月底发放

主打一个快！腾讯开源0.3B端侧模型，手机耳机都能跑

相关内容

热门资讯