带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
创始人
2025-05-17 12:55:59
0

教AI学会使用工具,带图推理就能变得更强?!

港中文、微软联合8家单位推出OpenThinkIMG开源框架,这是一个专为提升AI视觉工具使用和推理能力而设计的一站式平台。

众所周知,我们人类在解决问题时,常常会借助视觉工具:解几何题时画辅助线,分析图表时用荧光笔标记。这些“动手”操作,极大地增强了我们的认知和推理能力。

因此,一旦将同款“动手操作”能力赋予AI,其推理能力也将大大提升。

不过问题是,虽然现在已经有很多强大的视觉工具(分割、检测、OCR等),但让AI真正学会如何以及何时智能地使用这些工具,却面临巨大挑战:

而OpenThinkIMG框架的出现正是为了解决上述问题,与此同时,团队还公开了其核心的自适应工具使用训练技术V-ToolRL

下面具体来看。

OpenThinkIMG:为AI打造的“超级工具箱”

如框架图所示,OpenThinkIMG集工具部署、数据生成、智能体训练于一体。

其核心特性如下:

第一,模块化视觉工具部署 (Tool Deployment)。

简单来说,它提供标准化的视觉工具接口,无论是已有的成熟工具(如GroundingDINO, SAM, OCR等),还是你自己的新工具,都能轻松接入OpenThinkIMG的“工具箱”。

并且每个工具都可以作为独立服务部署,互不干扰,方便管理和按需扩展。AI模型可以通过框架内的“工具控制器”按需调用。

第二,高效的智能体训练框架 (Training Framework)。

它不仅支持传统的监督微调 (SFT),更集成了团队创新的V-ToolRL (Visual Tool Reinforcement Learning) 算法。

这一算法让AI通过强化学习,在与视觉工具的真实交互中,从错误中学习,自主探索和掌握最佳的工具使用策略。

具体而言,需要先通过SFT进行“理论学习”(冷启动),然后通过V-ToolRL进行“上路实操”,根据任务完成情况获得奖励或惩罚,不断优化策略。

第三,支持高质量训练数据生成 (Scalable Trajectory Generation)。

为了给V-ToolRL提供优质的初始“教材”,OpenThinkIMG内置了一套团队提出的高效、可扩展的视觉工具使用轨迹生成方法。

具体过程分为三步:

△高质量视觉轨迹数据构建流程

通过OpenThinkIMG的这些核心能力,研究者和开发者可以更专注于模型算法的创新,而不必在工具部署和数据准备上耗费过多精力。

OpenThinkIMG + V-ToolRL:表现超过GPT-4.1

团队在具有挑战性的图表推理任务上,使用OpenThinkIMG框架训练了基于V-ToolRL的智能体。

如图所示,V-ToolRL在ChartGemma测试集上的性能表现(基于OpenThinkIMG训练)如下:

1、大幅超越SFT:基于一个2B的Qwen2-VL,经过V-ToolRL训练后,准确率比单纯SFT提升了28.83个百分点;

2、碾压同类开源模型:V-ToolRL的表现平均超过了如Taco、CogCom等基于监督学习的工具使用基线12.7个百分点,而且团队的模型参数量更小;

3、媲美顶尖模型:V-ToolRL的表现超过GPT-4.1,同时和Gemini达到持平的效果。

结果充分证明了OpenThinkIMG框架的强大支撑能力,以及V-ToolRL在学习自适应工具调用策略上的优越性。

那么,V-ToolRL是如何在OpenThinkIMG中学习的呢?

通过OpenThinkIMG的训练环境,团队观察到V-ToolRL智能体展现出以下学习特性:(a) 工具调用更高效 (b) 推理更详尽 (c) V-ToolRL 学习更快更好。

具体而言,随着训练的进行,模型平均调用的工具次数显著下降,说明它学会了“好钢用在刀刃上”,只在必要时才使用工具。

而且模型生成的答案(包括思考过程)长度增加了,表明它能够进行更详细、更深入的推理。

最后,V-ToolRL(集成了视觉工具的反馈)相比纯文本的强化学习,学习速度更快,最终效果也更好,证明了“眼见为实”的重要性。

下图展示了V-ToolRL在具体问题上的表现。面对复杂的图表,V-ToolRL能够:

△V-ToolRL (上侧工具辅助) vs GPT-4.1 (下侧直接解读)

这些案例生动地展示了V-ToolRL如何通过结构化的工具调用,实现比直接视觉解读更准确、更可解释的推理。

小结一下,OpenThinkIMG框架的核心贡献在于:

1、一个开放、强大的工具部署与训练平台:解决了工具集成和智能体训练的难题。

2、内置高效数据生成方法:为模型训练提供高质量“燃料”。

3、V-ToolRL作为核心训练算法:使AI能够真正学会自主、智能地使用视觉工具。

团队表示,OpenThinkIMG将为开发能够真正“用图像思考”的下一代AI智能体提供坚实的基础设施。

未来,他们将继续扩展OpenThinkIMG支持的工具和模型,探索更复杂的任务场景,并期待与社区共同推动这一激动人心的领域向前发展。

论文第一作者苏肇辰为苏州大学三年级研究生,香港科技大学准博士生,在NeurIPS、ACL等国际顶级会议上发表多篇研究成果。项目通讯作者为港中文成宇教授

技术报告:

https://arxiv.org/pdf/2505.08617

GitHub仓库:

https://github.com/zhaochen0110/OpenThinkIMG

数据集和模型:

https://huggingface.co/collections/Warrieryes/openthinkimg-68244a63e97a24d9b7ffcde9

相关内容

热门资讯

在基层大地唱响乡村振兴之歌——...     2023年5月,中国气象局综合观测司三级调研员刘为一被选派到内蒙古自治区兴安盟突泉县五三村担...
部分路段封闭管控,太原去临汾、... 5月17日开始,山西南部重要通道G5京昆高速开始进行路况提升专项养护工作。施工期间,部分路段会实行封...
成毅的鼻型还是太权威了 转自:河北新闻网 【#成毅的鼻型还是太权威了# 】#成毅...
历时15个月、耗资超50亿!浙...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   21世纪经济报道...
锦江国际携手英雄亚冠ACL &... 转自:劳动报近日,上海国家会展中心人声鼎沸,首届英雄亚冠ACL总决赛及全球顶级游戏嘉年华DreamH...
克宫:若俄乌代表团达成一定协议... 转自:财联社【克宫:若俄乌代表团达成一定协议 普京有望见泽连斯基】财联社5月17日电,俄罗斯总统新闻...
招3000人!河南发布2025... 5月17日,记者从河南省人力资源和社会保障厅获悉,中共河南省委组织部、河南省人力资源和社会保障厅等1...
P&E2025:GFX... 第26届中国国际照相机械影像器材与技术博览会(英文:CHINA P&E),在5月16日-19日于北京...
连江海鲜“游”进英国市场 连江海鲜凭借其卓越的品质和丰富的种类,成功“游”进了英国市场。连江地处沿海,拥有得天独厚的海洋资源,...
漳汕高铁获批 福州至广州约3.... 漳汕高铁获批,这一消息宛如一颗重磅炸弹,在交通领域掀起巨大波澜。从此,福州至广州的时空距离将被大幅缩...
青岛打造外资服务标杆,阿斯利康... 转自:大众报业·齐鲁壹点5月16日,山东省政府在阿斯利康青岛生产基地举行“服务跨国公司 山东在行动”...
天合光能助理副总裁吴肖:提升风... 在5月17日举行的第十三届(2025)SIIFC国际研讨会上,天合光能助理副总裁、集团风险控制管理部...
四省(市)有重要人事变动 请你明确一下具体是哪四省(市)以及人事变动的相关信息呀,没有这些具体内容我很难准确地为你写 200 ...
广药集团原董事长被撤销五一奖章 #李楚源被双开撤销荣誉称号#【#广药集团原董事长被撤销五一奖章#】搞迷信活动,出入私人会所,违规占用...
株洲西高铁站通报:一旅客因上错... 来源:央广网 对于网传“株洲西站高铁启动时一旅客突然冲出被门夹住”事件,株洲西高铁站经调查核实,具体...
韩方就救援行动向中方发来感谢信... 转自:上观新闻5月16日,浙江省海上搜救中心收到了一封来自韩国济州地方海洋警察厅的感谢信。信中,韩国...
有关“普泽会”,俄官方表示:有... 转自:北京日报客户端当地时间5月17日,俄总统新闻秘书佩斯科夫表示,乌克兰问题的解决工作将继续进行。...
以数赋能·聚势前行 2025长... 转自:新华财经创新驱动发展战略是新质生产力培育、高质量发展的核心动力。为全面贯彻落实国家有关决策部署...
溢价200%!新疆火炬1.25... 华夏时报(www.chinatimes.net.cn)记者 何一华 李未来 北京报道5月15日晚间,...
开启“雨水模式”!福州周末或再... “雨水模式”正式开启啦!福州的周末似乎又要迎来一场强对流的洗礼。那淅淅沥沥的雨水,如丝如缕,仿佛是天...