用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
创始人
2025-05-03 14:49:58
0

目前论文和代码模型均已开源,作者希望其工作能给社区提供一个强大的baseline来支持后续研究。

眼见为实:为何AI视觉感知需要一场革命

随着OpenAI o3的出现,大模型竞赛也正式进入以“视觉推理”为代表的下半场,从GPT-4V到如今的o3,两年时间,人工智能正在迅速改变人与世界互动的方式,而这场革命在很大程度上依赖于AI理解视觉信息的能力。

从自动驾驶汽车在复杂的街道上导航,到医疗AI从扫描图像中诊断疾病,甚至是整理照片库的应用程序,视觉感知都是基础。

多模态大语言模型(MLLM),如OpenAI的GPT-4o、Google的Gemini,以及开源的Qwen-VL和LLaVA,代表了巨大的进步。这些模型将语言模型(LLM)的语言理解能力与处理图像的能力相结合,使我们能够与AI“交谈”关于图片的内容。询问它们图片中有什么,它们通常能告诉你。

强化学习的崛起与Perception-R1的诞生

强化学习(Reinforcement Learning, RL)引发了语言模型的范式转变。像RLHF(来自人类反馈的强化学习)和基于规则的RL等技术,在DeepSeek-R1中被用来解锁 emergent reasoning 能力,推动LLM向更强的推理能力发展。

这引出了一个问题:强化学习能否为MLLM的视觉感知能力带来类似的革命?

早期的尝试显示出希望,但并非通用的成功。简单地将语言领域的RL技术应用于视觉任务并不总能产生预期的收益。这暗示视觉感知可能遵循与纯语言不同的规则。

Perception-R1 应运而生。由华科,北邮以及JHU等高校的研究人员联合开发的开创性框架,如论文中所描述的那样这种方法回归到基本原理,探索如何有效地将基于规则的强化学习定制到MLLM视觉感知的独特挑战中。这不仅仅是让MLLM看起来更好,而是通过学习最佳的“感知策略”(Perception Policy)来教导它们更智能地看。

Perception-R1框架:工作原理

Perception-R1 不是从头开始构建一个新的MLLM,而是一个后训练框架,旨在通过基于规则的强化学习显著增强现有 capable MLLM(如Qwen2-VLInstruct-2B)的视觉感知能力

什么是“感知策略”?

“感知策略”可以视为MLLM处理视觉任务的内部策略,具体包括以下步骤:

  1. 从图像中提取和理解相关的视觉细节。

  2. 以正确的格式生成所需的输出(例如,边界框坐标、计数、转录文本)

Perception-R1 使用一种名为Group Relative Policy Optimization(GRPO)的强化学习技术来优化这一策略。GRPO 曾在DeepSeek-R1中取得成功,其工作原理如下(简版)

GRPO原理公式:

  1. Rollout(多次尝试):要求模型多次生成输出(例如,8次)。由于生成中的随机性(由温度参数控制),每次输出可能略有不同。

  2. 奖励建模:根据明确的评分标准(奖励函数)评估每次尝试。例如,对于边界框任务,使用Intersection over Union(IoU)衡量模型输出与正确答案的重叠程度。

  3. 相对比较:GRPO 通过比较多次尝试的奖励分数,计算平均值。优于平均水平的尝试获得正“优势”,低于平均水平的获得负“优势”。

  4. 策略更新:利用这些相对优势更新模型的策略,增加生成高奖励输出的概率,减少低奖励输出的概率。

  5. 重复优化:在大量示例上重复此过程,逐步优化感知策略。

具体框架如下:

Perception-R1 架构示意图做好视觉任务的关键:奖励工程(Reward Modeling)

在强化学习中,奖励函数至关重要,它是指导学习过程的核心信号。视觉感知任务通常具有直接、可量化的 ground truth,Perception-R1 利用这一点设计了基于规则的奖励函数,总奖励由两部分组成:

  1. 格式奖励:检查输出是否符合预期结构。例如,边界框任务要求输出

    格式,正确则得+1分,错误则扣-1分。

  2. 答案奖励:衡量感知的正确性,使用任务特定的指标:

  • 视觉定位(RefCOCO):预测边界框与 ground truth 的 IoU。

  • 视觉计数(PixMo-Count):将任务重新定义为点检测后计数,奖励基于预测点与ground truth点的欧几里得距离。

多主体奖励匹配的挑战与解决方案

对于涉及多个实例的任务(如物体检测和计数),如何匹配预测结果与 ground truth 是一个难题。Perception-R1 采用二分图匹配解决:

  • 将预测结果和 ground truth 视为两组点。

  • 计算每对之间的潜在奖励(例如,IoU)

  • 使用匈牙利算法找到总奖励最大的最优匹配。

这确保了奖励计算基于最佳对应关系,为多物体感知任务提供了更准确的学习信号。最终总奖励为:

实验结果:Perception-R1的突破性表现

Perception-R1 的实际表现如何?研究人员在一套标准视觉感知基准上对其进行了评估,并将其与强大的基准 MLLM(如原始 Qwen2-VL-2B-Instruct)进行了比较,甚至与只为特定任务设计的专门 “专家 “模型进行了比较。

visual grounding任务(RefCOCO/+/g)

visual grounding评测OCR任务(PageOCR)

PageOCR评测视觉计数任务(Pixmo-Count)以及目标检测任务(COCO2017)

视觉计数和目标检测评测通用图像理解(general image understanding)

image understanding and reasoning 评测重要消融实验

Perception-R1也进行了全面的消融实验来探究现阶段rule-based RL对perception policy learning的有效性会受到哪些方面影响,研究人员详细评测了reward matching,是否使用显式的thinking以及SFT与RL优劣的问题都进行了深刻的探讨,接着Perception-R1也展示其良好的可扩展特性,为后续大规模scale up提供了实验验证。

Perception-R1的可扩展性实验结论:迈向更加智能的AI视觉感知

Perception-R1 表明,当强化学习被精心适配到视觉任务的独特特性时,它可以成为教导大模型更准确、更逻辑地“看”的强大工具。通过优化感知策略,该框架推动了MLLM在物体检测、计数和OCR等任务上的能力边界。

尽管真正的视觉“顿悟”仍需探索,Perception-R1奠定了关键基础。它挑战了视觉任务必须依赖语言推理的假设,并强调了任务复杂性对RL效果的重要性。

随着模型规模扩大和更具挑战性的基准出现,Perception-R1的原则可能在构建下一代智能感知AI系统中发挥关键作用。

论文链接:https://arxiv.org/pdf/2504.07954

代码链接:https://github.com/linkangheng/PR1

博客链接:https://medium.com/@jenray1986/perception-r1-reinventing-ai-vision-with-reinforcement-learning-253bf3e77657

相关内容

热门资讯

“抖罗大陆”正在扩张中 看主播时,我们都在看什么?#K总婚礼# #安静公主要二次手术# #迅猛龙考上复旦了# #孙恩盛怒斥辱...
9.2分,BBC这部神作太过瘾... 这年头,因为演技烂弃的剧真是数不胜数。但今天跟大家推的这部剧恰恰是因为演技火出圈了。提亚娜·玛斯拉尼...
“最美艳后”:曾拒绝成龙,现6... 她出生于普通的工人家庭,却凭借着自己的美貌与努力成为了香港影坛的一代传奇。因为身材火辣,女人味十足,...
原创 轮... 生产力工具走上同一条路。 作者|景行 编辑|文昌龙 “拍一下,答案即刻显现,难题迎刃而解。” 4月2...
《蛮好的人生》:胡杏儿把偏执型... 《蛮好的人生》播完了,值得回味的点很多。胡杏儿也是一大亮点,她演的偏执狂魔邱丽苏,在拥挤的小三赛道上...
孙俪,为什么走不出《甄嬛传》? FIGURE05/06孙俪,最近怎么了?今年的两部新剧《乌云之上》《蛮好的人生》,接连翻车。网友们差...
萤石网络股价上涨3.84% 机... 截至2025年5月6日15时,萤石网络股价报35.99元,较前一交易日上涨1.33元。当日开盘价为3...
特朗普称周日才看到“AI教皇照... 当地时间周五,特朗普的Truth Social账号上发布了一张通过人工智能将自己描绘成教皇的图片,很...
人机对齐:破解AI伦理困境的“... 近年来,AI(人工智能)技术飞速发展,在带来效率革命的同时,也暴露出隐私泄露、歧视偏见、算法滥用等伦...
彭博社:中美主导AI模型竞赛 ... 北京时间5月6日,彭博社周一发文称,在生成式AI热潮刚刚开始兴起时,中东、欧洲的一些公司曾经跃跃欲试...
加拿大总理连任后访美,特朗普:... 5月5日,美国总统特朗普表示,他“不确定”加拿大总理马克·卡尼在即将举行的白宫会晤中想要讨论什么。特...
热搜第一!刘强东回应“凑76个... 每经编辑:杜宇 5月6日,话题#刘强东回应凑鸡蛋上大学#冲上热搜第一。 5月5日,中国人民大学校友...
俄专家: 习近平主席访俄将正值... 【俄罗斯科学院中国与现代亚洲研究所所长基里尔·巴巴耶夫在接受俄罗斯卫星通讯社的采访时表示,中国国家主...
《蛮好的人生》大结局:所有人与... 文案|罗生编辑|喵三三一转眼《蛮好的人生》迎来大结局了。很多人对胡曼黎选择重回蓝洋表示费解。但从利益...
《蛮好的人生》结局:看到最后,... 《蛮好的人生》终于收官。这部剧从开局就开始撒狗血,到了大结局依旧不放过观众,遍地的套路,离谱的反转,...
5月6日广晟有色涨10.00%... 证券之星消息,5月6日广晟有色(600259)涨10.00%创60日新高,收盘报39.59元,换手率...
中式恐怖吓破胆,谁说古偶剧只能... 主人公每一次捉妖背后都包裹着一个严肃的社会议题,对观众的情绪发起精准冲击,这让《无忧渡》在志怪元素堆...
开源证券给予保利发展买入评级:... 每经AI快讯,开源证券05月05日发布研报称,给予保利发展(600048.SH)买入评级。评级理由主...
富特科技涨5.14%,开源证券... 今日富特科技(301607)涨5.14%,收盘报45.86元。 2025年4月24日,开源证券研究员...