首创像素空间推理,7B模型领先GPT-4o,让AI能像人一样眼脑并用
创始人
2025-06-09 18:12:59
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。

当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。

然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。

来自滑铁卢大学、港科大、中科大的研究团队,首次将推理战场从文本空间拓展到像素空间,提出「像素空间推理」(Pixel-Space Reasoning)范式。

这项突破让VLM能像人类一样「眼脑并用」:通过原生视觉操作直接与视觉信息对话,在像素级精度上解锁视觉理解的新维度。

推理模式重构:从「文本中介」到「视觉原生」

传统VLM如同带着「文本滤镜」看世界:将图像翻译成文本token再推理,导致小字体、隐蔽物体等关键信息在转换中丢失。而「像素空间推理」赋予模型「视觉手术刀」般的能力

这种「眼脑协同」的推理模式,打破了文本对视觉语义的「翻译牢笼」,让模型真正具备了与人类视觉认知同构的推理能力。

学习陷阱破解:好奇心激励突破认知惰性困局

在能力迁移过程中,研究团队发现指令微调模型仍面临「认知惰性」带来的严峻挑战:成熟的文本推理能力与稚嫩的像素操作能力形成能力鸿沟,导致模型陷入「学习陷阱」:

1 负面反馈循环:初期视觉操作的低成功率引发大量负向信号,抑制模型使用新能力的意愿;2 路径依赖惯性:简单任务中模型更倾向调用已掌握的文本推理,形成「新能力退化」的恶性循环。

如同熟练的滑雪者初次尝试冲浪,初期的失衡体验会让人本能回归熟悉领域,而忽视新技能的长期价值。

为打破这一困境,研究团队设计了内在好奇心激励配合外在正确性激励的强化学习奖惩方案。通过引入内在激励鼓励模型练习视觉操作,并引导模型逐步挖掘「像素空间推理」的潜在价值,而非仅依赖外在的正确性奖励。这就像幼儿学步时,对新鲜动作的内在好奇会驱动其反复尝试,即使每次尝试都伴随着跌倒。

因此,研究团队形式化出下面的约束优化目标

其中包含两个关键约束用于有效激发「像素空间推理」

通过拉格朗日松弛等效转化为以下的奖励函数:

其中的内在好奇心激励(r_curiosity)会在模型低频触发「像素空间推理」时提供内在激励,如同为探索未知领域的冒险者提供「勇气加成」,降低尝试新能力的机会成本。同时,随着训练推进,好奇心奖励会动态衰减,确保模型最终聚焦于推理效率而非奖励投机,形成「好奇驱动」到「效用驱动」的良性过渡。

性能验证:7B 模型实现高效能突破

在四大视觉推理基准测试中,基于Qwen2.5-VL-7B构建的Pixel-Reasoner展现出碾压级表现:

值得注意的是,仅7B参数的Pixel-Reasoner,性能全面超越27B的Gemma3等开源模型,甚至媲美部分闭源商业模型,展现出「小模型大能力」的高效特性。

此外,研究团队也进行了细节的实验来分析模型「认知惰性」带来学习新推理能力的「学习陷阱」,为如何有效培养模型全新推理能力提供了深刻的启示。

研究团队指出,像素空间推理并非对文本推理的替代,而是为VLM开启了「第二思维通道」。当视觉与语言双轨并行,多模态模型才能真正理解世界的复杂性。

Pixel-Reasoner尚且是多模态推理范式的初步探索。从「看山是山」到「见微知著」,随着多模态推理能力的进一步发展,我们正迎来一个机器能「看得更细、想得更深」的智能时代。

论文地址:https://arxiv.org/pdf/2505.15966

项目主页:https://tiger-ai-lab.github.io/Pixel-Reasoner/

模型试玩:https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner

相关内容

热门资讯

安永刘国华:中国企业加速“绿色... “ESG合规已成为企业国际化发展的关键竞争力,绿色转型是企业出海的核心引擎。”安永大中华区可持续发展...
合理提高最低工资标准!中办、国... 转自:扬子晚报中共中央办公厅 国务院办公厅关于进一步保障和改善民生 着力解决群众急难愁盼的意见(20...
吉林省吉林市招标公告 转自:中国政府采购报吉林省吉林市招标公告项目名称:吉林市第一中学所需书写纸项目招标文件获取时间:20...
孙颖莎领衔深圳大学“00后”阵... 6月9日,虽然是工作日周一的上午,但在河北雄安体育中心体育馆进行的2025赛季中国乒超联赛常规赛第一...
山东菏泽政采监管实现“智变” 转自:中国政府采购报【新质生产力:政府采购新变量】山东菏泽政采监管实现“智变”本报讯 近日,山东省菏...
浙江金华:科技创新引领高新技术... 转自:中国政府采购报图片新闻PHOTO NEWS浙江金华:科技创新引领高新技术产业发展近年来,浙江省...
美国加州州长将就国民警卫队部署... 当地时间6月9日,美国加州州长纽森在社交媒体上表示,将就国民警卫队部署问题对特朗普政府提起诉讼。近日...
今年第1号台风或要来了,广东将... 6月9日,广州最高气温达到36.9℃,逼近高温橙色预警的发布标准。极端高温通常不会无缘无故出现,一旦...
金杨股份:6月23日将召开20... 证券日报网讯 6月9日晚间,金杨股份发布公告称,公司将于2025年6月23日召开2025年第三次临时...
6月9日增减持汇总:福达合金等...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   据统计,6月9日...
海默科技筹划公司控制权变更 交... 6月9日晚间,海默科技发布关于筹划公司控制权变更的停牌公告。据披露,公司于6月8日收到控股股东山东新...
开启智慧医疗新篇 云南首例远程... 6月7日,云南省首例远程骨科手术机器人腰椎手术在云南省第一人民医院(下称:省一院)骨科主任陆声的远程...
博晖创新:公司获得医疗器械注册... 证券日报网讯 6月9日晚间,博晖创新发布公告称,公司近日获得由国家药品监督管理局颁发的《中华人民共和...
恒丰银行亮相2025消费金融生... 转自:新华财经6月6日,2025消费金融生态大会在重庆举办。大会以“金融促消费·共启新征程”为主题,...
新希望(000876.SZ):... 格隆汇6月9日丨新希望(000876.SZ)公布,持有公司股份1,312,500股(占公司总股本比例...
安徽公布高考查分和分数线划定时... 转自:中安在线目前,我省网上评卷工作已启动,预计于6月25日公布各批次录取控制分数线和考生成绩。在成...
昆三中滇池校区学生“刷脸”借书 6月4日,昆明市第三中学滇池校区的李睿和张扬馨玥等同学,在教学楼的电子借阅书柜前,仅需“刷脸”就轻松...
调研先行 政策叠加效应显现 转自:中国政府采购报【聚焦政府采购支持绿色建材发展】调研先行 政策叠加效应显现内蒙古呼和浩特市合力推...
光启技术(002625.SZ)... 光启技术(002625.SZ)发布2025年股票期权激励计划(草案),此次激励计划授予股票期权共计3...
网信公安联动,整治谣言乱象——... 2025年5月,网络谣言集中在社会热点事件、公共安全、招考政策、旅游出行等领域,造谣者通过张冠李戴、...