视觉学习新突破:Meta开源WebSSL,摆脱语言束缚
创始人
2025-04-25 13:46:56
0

IT之家 4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。

以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。

Meta 公司针对上述痛点,在在 Hugging Face 平台上发布了 WebSSL 系列模型,涵盖 DINO 和 Vision Transformer(ViT)架构,参数规模从 3 亿到 70 亿不等。

这些模型仅使用 MetaCLIP 数据集(MC-2B)中的 20 亿张图像子集进行训练,排除了语言监督的影响。Meta 的目标并非取代 CLIP,而是通过控制变量,深入评估在不受数据和模型规模限制下,纯视觉自监督学习(SSL)的表现潜力。

WebSSL 模型采用两种视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。训练统一使用 224×224 分辨率图像,并冻结视觉编码器以确保结果差异仅源于预训练策略。

模型在五个容量层级(ViT-1B 至 ViT-7B)上训练,评估基于 Cambrian-1 基准测试,覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外,模型无缝集成于 Hugging Face 的 transformers 库,便于研究和应用。

实验揭示了多项关键发现:随着参数规模增加,WebSSL 模型在 VQA 任务上的表现接近对数线性提升,而 CLIP 在超过 30 亿参数后性能趋于饱和。

WebSSL 在 OCR 和图表任务中表现尤为突出,尤其在数据筛选后,仅用 1.3% 的富文本图像训练即超越 CLIP,在 OCRBench 和 ChartQA 任务中提升高达 13.6%。

此外,高分辨率(518px)微调进一步缩小了与 SigLIP 等高分辨率模型的差距,在文档任务中表现尤为出色。

WebSSL 模型在无语言监督下仍展现出与预训练语言模型(如 LLaMA-3)的良好对齐性,表明大规模视觉模型能隐式学习与文本语义相关的特征。

同时,WebSSL 在传统基准测试(如 ImageNet-1k 分类、ADE20K 分割)上保持强劲表现,部分场景甚至优于 MetaCLIP 和 DINOv2。

IT之家附上参考地址

相关内容

热门资讯

新疆精河:一粒“小红果”撬动富... 中新网新疆精河6月28日电 (喇小飞)6月,正值新疆精河县10万亩枸杞丰收季,一望无际的枸杞地里,颗...
特朗普就曾遭枪击再发声:总统是... 综合外媒报道,当地时间6月27日,美国总统特朗普在白宫新闻发布会上谈及了针对他的生命威胁,并表示美国...
北方稀土相关公司新增一项108... (转自:快查一企业中标了)快查APP显示,北方稀土相关公司内蒙古包钢钢联股份有限公司于2025年6月...
最新或2023(历届)绍兴城乡...  城乡居民又迎来了好消息。昨天上午,市政府就城乡居民基本医疗保险政策完善情况召开会议。记者从会上获悉...
最新或2023(历届)呼和浩特...  呼和浩特市城镇居民大病补充保险工作将于最新或2023(历届) 1月 1日启动实施,争取到 最新或2...