MiniMax开源首个视觉RL统一框架 实现“推理感知两手抓”
创始人
2025-05-31 17:41:54

近日,MiniMax正式开源了其自主研发的首个视觉强化学习(Visual RL)统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼,32B模型性能提升高达14.1%。

上证报中国证券网讯(记者 孙小程)近日,MiniMax正式开源了其自主研发的首个视觉强化学习(Visual RL)统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼,32B模型性能提升高达14.1%。

未来的智能体无论是用来操控机器人、自动驾驶,还是作为虚拟助手,都必须具备超越简单看图识物的能力。它们不仅要“看懂”(精确感知环境),更要“想明白”(基于视觉信息进行复杂逻辑推断、关系理解和行为预测)。而强化学习,正是让多模态模型实现这些核心能力的关键路径。

然而,当前在多模态强化学习领域,视觉感知和视觉推理任务往往被独立或松散地处理,这就像两条互不相干的铁路,限制了信息的共享和协同优化的潜力。这正是MiniMax最新研发的V-Triune框架诞生的初衷——打破界限,让它们在一个统一的框架下协同工作。

在业内看来,V-Triune的开源标志着中国在多模态AI技术领域实现了重要突破,弥补了传统RL方法无法兼顾多重任务的空白。

V-Triune的核心贡献在于,首次提出了一个能够统一处理视觉感知和视觉推理任务的强化学习系统。它就像一位高明的“指挥家”,让视觉语言模型(VLM)在一个训练流程中同时学习这两类任务,从而大幅提升视觉信息的综合利用效率和模型的泛化能力。

据介绍,通过V-Triune这个统一框架的设计与验证,不仅展示了通过RL协同优化VLM感知与推理任务的可行路径,更通过动态IoU奖励等算法创新,解决了关键任务的痛点,提升了性能。这项工作为后续开发更强大、更通用、更“聪明”的视觉智能系统,提供了重要的思路和组件。

相关内容

热门资讯

国家统计局发布2026年2月份... 转自:财联社【国家统计局发布2026年2月份分年龄组失业率数据】财联社3月19日电,国家统计局发布布...
奥斯卡星光背后:大片制作为何从... 第98届奥斯卡奖颁奖典礼近日在美国好莱坞杜比剧院落幕。但星光之下,好莱坞面临隐忧:电影和电视项目的拍...
国家外汇管理局:围绕科技创新、... 3月17日,国家外汇管理局党组书记、局长朱鹤新主持召开党组(扩大)会议。会议强调,深化外汇领域改革创...
鸿合科技:截至2026年3月1... 投资者提问:请问截至3月19日公司的股东人数是多少?谢谢董秘回答(鸿合科技SZ002955):尊敬的...
华大九天:终止收购后与西电合作... 投资者提问:请问贵公司终止收购芯和半导体后。有其他预备方案或者备选收购的半导体公司,为公司加入半导体...