谷歌宣布开源多模态大模型Gemma3 媲美DeepSeek
创始人
2025-03-13 10:40:54

【CNMO科技消息】日前,谷歌首席执行官Sundar Pichai宣布开源最新多模态大模型Gemma-3,主打低成本与高性能。Gemma-3提供四种不同参数规模的版本,分别为10亿、40亿、120亿和270亿参数。即便在参数量最大的270亿版本中,仅需一张H100显卡即可实现高效推理。相比之下,同类模型若要达到类似效果,至少需要提升10倍算力。因此,Gemma-3也是目前性能最强的小参数模型之一。

在性能测试方面,根据LMSYS ChatbotArena的盲测数据,Gemma-3的表现仅次于DeepSeek的R1-671B,优于OpenAI的o3-mini和Llama3-405B等知名模型。

在架构设计上,Gemma-3延续了前两代的通用解码器Transformer架构,并进行了多项创新和优化。为解决长上下文带来的内存占用问题,Gemma-3采用了局部和全局自注意力层交错的架构:每5个局部层之间插入1个全局层,局部层的跨度仅为1024个token。由于只有全局层负责处理长上下文,局部层仅关注1024个token的小跨度,从而有效降低了内存占用。

多模态能力是Gemma-3的一大技术亮点。该模型能够同时处理文本和图像,并集成了定制版的SigLIP视觉编码器。这一编码器基于Vision Transformer架构,通过CLIP损失的变体进行训练。

为了评估Gemma-3的性能,谷歌在MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR等多个主流平台进行了测试。结果显示,Gemma-3在多模态任务中表现出色,例如在DocVQA、InfoVQA和TextVQA等任务中,其性能显著优于前代模型。在长文本处理方面,270亿参数版本的Gemma-3在RULER128K任务上达到了66.0%的准确率。

相关内容

热门资讯

【洛阳·早安】元旦外出游玩,这... 转自:洛阳发布假日时光已至无论是北上体验冰雪激情还是南下享受海岛暖阳安全始终是快乐出行的前提一起开启...
警惕这几种超常见的网络操纵手段... 转自:央视新闻  互联网上能碰到很多骗局,其危害程度各有不同,比起买到假冒伪劣商品损失财物,心理咨询...
波黑官员:互免签证有力推动波中... 来源:新华网新华社萨拉热窝1月1日电(记者殷晓圣)波黑外国人事务局局长扎尔科·拉凯塔2025年12月...
网上随便就能买到!女子一次性吞... 本文转自【新闻坊】;家住绍兴的小金姑娘23岁,便秘已有一段时间了,用了多种方法效果不佳,颇为苦恼。 ...
复婚后,我们又陷入种种不和谐 (来源:南湖晚报)转自:南湖晚报   丁女士:我和老陈复婚那天,女儿为我们在酒店摆了5桌。宾客举杯时...