MiniMax开源首个视觉RL统一框架实现“推理感知两手抓”_知识

创始人

2025-05-31 17:41:54

近日，MiniMax正式开源了其自主研发的首个视觉强化学习（Visual RL）统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼，32B模型性能提升高达14.1%。

上证报中国证券网讯（记者孙小程）近日，MiniMax正式开源了其自主研发的首个视觉强化学习（Visual RL）统一框架——V-Triune。这项技术在国际权威基准测试MEGA-Bench上表现亮眼，32B模型性能提升高达14.1%。

未来的智能体无论是用来操控机器人、自动驾驶，还是作为虚拟助手，都必须具备超越简单看图识物的能力。它们不仅要“看懂”（精确感知环境），更要“想明白”（基于视觉信息进行复杂逻辑推断、关系理解和行为预测）。而强化学习，正是让多模态模型实现这些核心能力的关键路径。

然而，当前在多模态强化学习领域，视觉感知和视觉推理任务往往被独立或松散地处理，这就像两条互不相干的铁路，限制了信息的共享和协同优化的潜力。这正是MiniMax最新研发的V-Triune框架诞生的初衷——打破界限，让它们在一个统一的框架下协同工作。

在业内看来，V-Triune的开源标志着中国在多模态AI技术领域实现了重要突破，弥补了传统RL方法无法兼顾多重任务的空白。

V-Triune的核心贡献在于，首次提出了一个能够统一处理视觉感知和视觉推理任务的强化学习系统。它就像一位高明的“指挥家”，让视觉语言模型（VLM）在一个训练流程中同时学习这两类任务，从而大幅提升视觉信息的综合利用效率和模型的泛化能力。

据介绍，通过V-Triune这个统一框架的设计与验证，不仅展示了通过RL协同优化VLM感知与推理任务的可行路径，更通过动态IoU奖励等算法创新，解决了关键任务的痛点，提升了性能。这项工作为后续开发更强大、更通用、更“聪明”的视觉智能系统，提供了重要的思路和组件。