手机就能跑的谷歌最强开源模型来了,小身板打赢20倍参数模型
创始人
2026-04-03 20:44:58

智东西

编译 | 陈佳

编辑 | 程茜

智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据官方博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数下前所未有的智能水平。

其中,31B 模型目前在行业标准的Arena AI文本排行榜上名列全球开放模型第3位,在GPQA Diamond在这一高难度科学推理基准上取得85.7%的准确率,仅次于Qwen3.5 27B的85.8%。

▲Gemma 4系列模型在多项基准测试中的表现对比(图源:blog.google)

自第一代模型发布以来,Gemma的下载量已突破4亿次,并衍生出超十万种社区变体。

Gemma 4系列是基于与Gemini 3相同的技术体系构建的,支持图像与视频(以帧序列形式)及文本输入,小模型版本进一步支持音频理解。该系列共四款型号,E2B、E4B、26B混合专家模型(MoE)与31B 稠密模型,覆盖从智能手机、树莓派到专业工作站的完整部署场景,全部采用Apache 2.0协议开放,开发者可自由修改、再分发并用于商业产品。

有开发者在社区评论中说:“基准数据一直都在,但没人愿意在一个谷歌随时可能改规则的模型上建立产品。现在它才真的可以部署了。”

▲Gemma 4官方模型集合页面(图源:Hugging Face)

在硬件覆盖上,Gemma 4采取“移动优先”的设计理念,同时兼顾全栈部署需求。E2B与E4B专为边缘设备优化,可在手机、树莓派、NVIDIA Jetson Orin Nano上完全离线运行,延迟趋近于实时;26B与31B模型的非量化bfloat16权重可在单张80GB NVIDIA H100 GPU上运行,量化版本则支持消费级GPU本地部署。

谷歌DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)将Gemma 4称为“在各自参数量级下性能最优的全球开源模型”。

▲谷歌DeepMind CEO 德米斯·哈萨比斯(Demis Hassabis)在X平台的推文

Hugging Face联合创始人克莱门特·德朗格(Clément Delangue)将Gemma 4模型发布视为“本地AI正在迎来关键发展阶段”,并认为开放模型与可本地部署能力将成为未来AI的重要方向。

▲Hugging Face联合创始人克莱门特·德朗格(Clément Delangue)在X平台的推文

此次Gemma 4的发布,被多家外媒视为谷歌重返开源主战场,美国模型阵营迎来关键补位。

Hugging Face地址:https://huggingface.co/collections/google/gemma-4

官方技术博客:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

一、4大模型配置,性能表现超越参数规模达其20倍的模型

在官方技术博客中,谷歌说Gemma 4实现了单位参数下前所未有的智能水平,能在更低计算开销下实现更强性能。

该系列并非延续单纯扩大参数规模的路径,而是通过架构设计与训练优化的系统性改进,使开发者以更低硬件成本获得接近前沿模型的能力。

Gemma 4提供四种规模配置:E2B、E4B、26B混合专家模型(MoE)以及31B稠密模型。

31B 模型目前在行业标准的Arena AI文本排行榜上名列全球开放模型第3位,26B模型则名列第6位。在榜单中,Gemma 4的表现甚至超越了规模达其20倍的模型。对于开发者而言,这种单位参数智能水平的新高度意味着只需极低的硬件开销,即可获得前沿模型级别的能力。

▲Gemma 4 在Arena用户偏好排行榜中的参数量对比(左)与用户偏好(右)(图源:blog.google)

架构层面,26B MoE模型采用“按需激活参数”的设计,推理时仅激活约3.8B活跃参数,在显著降低算力需求的同时保持高性能输出;E2B与E4B小模型则引入Per-Layer Embeddings(PLE)机制,为解码器每一层引入独立的embedding表,从而增强各层的表达能力并提升参数利用效率,使模型在不显著增加计算负担的前提下获得更强的表征能力。

在注意力机制上,Gemma 4交替使用局部滑动窗口注意力与全局注意力机制,并在最后一层采用全局注意力,在保证长上下文能力的同时有效控制内存消耗。

在上下文处理能力上,边缘机型配备128K的上下文窗口,而更大型号则提供256K的上下文窗口,允许用户在一次提示中处理存储库或长文档。

这套架构优化的实际效果已在具体应用中得到验证。谷歌在博客中列举了两个典型案例:INSAIT基于Gemma系列开发了保加利亚语优先大模型BgGPT,耶鲁大学则与谷歌合作推进Cell2Sentence-Scale项目,探索癌症治疗新路径。这些案例基于对Gemma模型的微调与适配,体现出Gemma在垂直领域应用中的潜力。

二、原生支持图像、视频输入,可处理140种语言

Gemma 4不再局限于文本生成,而是从底层架构出发,将多模态理解与智能体(Agent)调用能力原生整合进同一模型体系。

全系四款模型均原生支持图像与视频输入,其中视频以帧序列形式处理,在OCR、图表理解等视觉任务中表现较为突出;E2B与E4B进一步集成原生音频能力,支持语音识别与理解。

在视觉处理精度上,模型支持可变分辨率与可配置token预算,官方提供70至1120 token等多档配置:低预算适用于分类与视频帧理解等速度敏感场景,高预算则用于OCR、文档解析与细粒度图像分析。

Gemma 4将函数调用(function calling)与结构化输出能力直接训练进模型本身,而非依赖提示工程引导。模型可原生输出结构化JSON,支持多工具调用与多轮任务执行,使其能够稳定参与自动化工作流,有效降低开发者构建智能体系统的工程成本。

在代码能力上,Gemma 4支持高质量离线代码生成,可在本地环境运行,被定位为“本地优先”的AI编程助手。在多步推理与复杂指令执行任务中,其表现较上一代显著提升。此外,模型原生支持超过140种语言。

三、采用Apache 2.0许可证开源,可在手机上离线运行

技术能力之外,Gemma 4的另一核心变化在于开放策略的调整。谷歌此次全面采用Apache 2.0许可证,取代此前的自定义授权方式,允许开发者自由修改、再分发及商业化部署,赋予其对模型、数据与基础设施更高的控制权。

▲Apache License 2.0开源协议核心条款说明(图源:devmandan)

在开发与部署层面,Gemma 4强调“从实验到生产”的完整链路支持。开发者可通过Google AI Studio(支持31B与26B MoE)与AI Edge Gallery(支持E4B与E2B)快速体验模型能力,也可在Android Studio中结合Agent模式进行移动应用开发。

在工具链适配上,Gemma 4发布首日即支持Hugging Face(含Transformers、TRL、Transformers.js、Candle)、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、Unsloth、SGLang等主流框架,模型权重通过Hugging Face、Kaggle与Ollama开放下载。

此外,Gemma 4针对NVIDIA GPU(涵盖Jetson至Blackwell架构)、AMD GPU(ROCm生态)以及谷歌自研Trillium与Ironwood TPU进行了深度优化,实现跨硬件平台的高效适配。云端方面,可通过Vertex AI、Cloud Run、GKE及TPU加速服务等多种方案扩展至生产规模。

四、实测多模态复杂任务效果一般

知名AI开发者Simon Willison在实际测试后指出,Gemma 4在“单位参数能力”(intelligence per parameter)上的表现尤为突出,这一指标反映出模型在有限参数规模下实现更高性能的能力。他认为,相较于持续扩大模型体量,如何在既有参数约束下提升性能,正逐渐成为当前模型优化的重要方向。

Willison以“骑自行车的鹈鹕”这一复杂视觉生成任务为例,对不同规模模型进行对比测试。结果显示,从2B到26B参数规模,模型生成质量呈现出明显的递进关系:小模型在复杂结构表达上仍存在不足,而中等规模模型已能够生成语义较为完整的图像。这一现象表明,尽管小模型在效率上取得进展,但在多模态复杂任务中仍对模型规模存在一定依赖。

▲Willison以“骑自行车的鹈鹕”对该模型从2B到4B再到26B-A4B的测试

Willison提到,该系列模型已不仅限于文本处理,还支持图像及视频(以帧序列形式)输入与音频。其中,E2B与E4B等小参数模型已具备语音理解能力。不过,从实际开发环境来看,这些能力尚未完全落地,本地推理框架对音频等输入形式的支持仍在完善过程中。

Hugging Face在Gemma 4技术解读中指出,与以往主要依赖云端部署的超大模型不同,Gemma 4系列覆盖从2B到31B的多种参数规模,使其既可应用于数据中心,也能够运行在本地设备乃至边缘硬件上,体现出模型向“端侧可用”的发展趋势。

Gemma 4通过结构优化与机制创新,使小参数模型在保持资源消耗可控的前提下实现能力提升。以E2B、E4B为代表的小模型,不仅支持多模态输入,还通过结构优化提升参数利用效率,使其在保持较低资源消耗的同时具备较强任务能力。

五、编程、高难度推理表现,接近Qwen3.5

从Arena榜单的对比结果来看,Gemma 4在文本类任务中的整体能力较上一代实现了全面提升。无论是在写作、编程、复杂指令执行,还是多轮对话与长文本理解等场景中,其表现均明显优于Gemma 3和Gemma 2,并在多个维度接近当前开源模型的第一梯队。

具体来看,Gemma 4在“专家级文本理解”和“代码生成”等高难度任务上提升尤为显著,同时在创意写作、复杂提示处理等场景中也表现出更稳定的输出质量。这种全维度外扩的能力曲线,意味着该模型不再只在个别任务上优化,而是在通用文本能力上实现整体提升。

▲Gemma系列模型在Arena文本类别排名对比(图源:Arena.ai)

根据独立AI评测媒体ai.rs对Gemma 4、Qwen与Llama的对比评测分析,此次升级被认为是开源模型领域“单代提升幅度最大的一次”,其进步并非渐进式优化,而是跨越式跃升。

尤其在编程能力上,Gemma 4的Codeforces ELO评分相较上一代Gemma 3的110分(接近勉强可用水平),大幅提升至2150分(接近竞技编程专家级)。

▲Gemma 4编码能力测试(图源:ai.rs)

ai.rs进一步指出,在高难度推理与代码生成等关键任务上,Gemma 4整体表现达到当前开源模型中的领先水平。

独立AI基准测试机构Artificial Analysis发布的GPQA Diamond排行榜显示,谷歌Gemma 4 31B模型在高难度科学推理基准上取得85.7%的准确率,位列榜单前列,与Qwen3.5 27B(85.8%)表现接近。

该基准包含198道由博士级专家编写的“防搜索”问题,涵盖生物、化学和物理领域,要求模型具备真正的研究生级科学推理能力,而非依赖外部知识检索。相比之下,人类领域专家的平均准确率约为65%。

值得注意的是,Gemma 4系列在参数效率上表现出色:其26B和31B变体在得分与参数量的对比图中落入高效象限,证明Gemma 4以相对较小的参数规模实现了高性能。

▲GPQA Diamond基准测试结果(柱状图)及得分与参数量关系(散点图)(图源:Artificial Analysis)

结语:从“能用”到“可部署”, 效率、成本与生态的综合较量

从此次Gemma 4的发布来看,其意义并不只在于单一指标的提升,而是性能、部署方式与授权策略的同步变化。Gemma 4一方面通过架构优化提升参数利用效率,小模型能力持续逼近中等规模模型,另一方面多模态能力与本地部署能力同步推进,在部分场景下减少对云端算力的依赖。

从更宏观的视角来看,开源大模型竞争已不再局限于性能指标,而是转向效率、成本与生态的综合较量。谁能在“好用、可部署、可扩展”之间取得平衡,谁才更有可能在下一阶段占据主导地位。

相关内容

热门资讯

32个月不交物业费,茂南名雅花... “谢谢你们,帮我解决了这宗持续两年多的邻里纠纷。”3月20日上午,茂南区官渡街道上宾社区党群服务中心...
宋江一句话揭开真相:梁山真正的... 梁山泊的风,从来不是一阵风。 它起初只是几个人的喘息声——落第书生王伦的失意,杜迁的粗豪,再加一个后...
开盘一周登顶一季度销冠,中海如... ━━━━ 中海蝉联北京一季度销冠 在刚刚结束的一季度,中海以权益销售金额108.1亿的战绩毫无悬念地...
关于感恩祖国的句子,描写感恩祖...   1. 同学们,我们要感恩自己的母亲,我们更加要热爱我们的祖国。今天,我们要努力学好本领;明天,我...
关于歌颂祖国的句子,描写歌颂祖...   1. 风雨苦难我们一起走过,辉煌成就我们一起创造。   2. 改革开放魅力无限,和谐中国精彩有约...