MiniMax开源首个视觉RL统一框架 实现“推理感知两手抓”
创始人
2025-05-31 17:41:54

近日,MiniMax正式开源了其自主研发的首个视觉强化学习(Visual RL)统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼,32B模型性能提升高达14.1%。

上证报中国证券网讯(记者 孙小程)近日,MiniMax正式开源了其自主研发的首个视觉强化学习(Visual RL)统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼,32B模型性能提升高达14.1%。

未来的智能体无论是用来操控机器人、自动驾驶,还是作为虚拟助手,都必须具备超越简单看图识物的能力。它们不仅要“看懂”(精确感知环境),更要“想明白”(基于视觉信息进行复杂逻辑推断、关系理解和行为预测)。而强化学习,正是让多模态模型实现这些核心能力的关键路径。

然而,当前在多模态强化学习领域,视觉感知和视觉推理任务往往被独立或松散地处理,这就像两条互不相干的铁路,限制了信息的共享和协同优化的潜力。这正是MiniMax最新研发的V-Triune框架诞生的初衷——打破界限,让它们在一个统一的框架下协同工作。

在业内看来,V-Triune的开源标志着中国在多模态AI技术领域实现了重要突破,弥补了传统RL方法无法兼顾多重任务的空白。

V-Triune的核心贡献在于,首次提出了一个能够统一处理视觉感知和视觉推理任务的强化学习系统。它就像一位高明的“指挥家”,让视觉语言模型(VLM)在一个训练流程中同时学习这两类任务,从而大幅提升视觉信息的综合利用效率和模型的泛化能力。

据介绍,通过V-Triune这个统一框架的设计与验证,不仅展示了通过RL协同优化VLM感知与推理任务的可行路径,更通过动态IoU奖励等算法创新,解决了关键任务的痛点,提升了性能。这项工作为后续开发更强大、更通用、更“聪明”的视觉智能系统,提供了重要的思路和组件。

相关内容

热门资讯

中... 本文目录导航: 中医软件那个好用 批发药店用什么样的医药软件好呢? ...
微... 文章真的很长,建议大家保存下来慢慢看!文末附上手绘思维导图!如果能打开微信公众后台,边看边操作最好了...
无... 一个“新手”用无人机拍航拍,一开始肯定很满足,但渐渐地可能就会失望:为什么拍出来的照片总不能像大片一...
科... 说到鼠标,相信大家都不陌生,根据不同的需求和使用场景,鼠标又分为多个类别:有线鼠标、蓝牙鼠标、游戏鼠...
v... 【TechWeb报道】前不久,vivo手机与QQ音乐合作的消息成为业界关注的焦点。作为手机界的知名品...