3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限
创始人
2025-05-04 23:01:00
0

3B模型超越Meta 7B模型,超长视频理解SOTA刷新了!

来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro,实现近一万帧视频的单卡处理,大海捞针准确率超98%。

现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。

对此,Video-XL-Pro创新采用“重构式token压缩”技术,并且使用较少的训练数据,在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B,以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,项目代码,模型,训练数据均已开源

Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。

ReCoT包含两个关键组件:动态token合成器(DTS)和语义引导掩码(SGM)。

DTS通过轻量级的时空注意力块对token进行压缩,有效捕捉视频中的动态运动;而SGM则通过自适应掩码策略,减少冗余视觉token,从而优化重构学习过程。

这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。

此外,为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。

这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。

Video-XL-Pro选用多个主流视频理解评测基准,对模型进行了全面的评测,对于长视频理解任务,评测了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench

其中MLVU,VideoMME,LongVideoBench集中在评测模型的长视频理解能力。

VNbench则是兼顾长视频与短视频,TempCompass则是评测模型在视频中的时间理解能力。

如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斩获了第一名,不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一众7B模型,包括Meta发布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了绝大部分同参数量模型,并达到与7B模型相当的水准。

最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。

得益于ReCot模块和查询选择器的设计,使得模型可以输入极长的上下文序列,在相同硬件条件下,模型可以以8192帧为输入,达到了近99%的准确率。

为了更全面的评估模型性能,我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段,精准回答片段时间范围,现有开源模型在V-STaR中很难取得很好的成绩,即便是Qwen2.5-VL-7B,mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8BQwen2.5-VL-7B,并超越上一代冠军Video-LLaMA3,展现了卓越的长视频时间理解能力,并且在Charades-STA上也有着不俗的表现。

该工作提出了Video-XL-Pro模型,利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。

Video-XL-Pro在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

目前,模型、代码、训练数据均已开源,以促进长视频理解社区的合作和发展。

论文链接:

https://arxiv.org/abs/2503.18478

代码链接:

https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro

模型链接:

https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B

训练数据链接:

https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

相关内容

热门资讯

美国突发:家庭聚会上发生枪击事... 当地时间5月4日凌晨,美国休斯敦一处住宅正在举行的家庭聚会上发生枪击事件,14人中枪,1人死亡,多人...
石河子市入选第二批文化产业赋能... 本报石河子讯(全媒体记者 赵优) 日前,文化和旅游部、教育部、自然资源部、农业农村部联合公布第二...
争做挺膺担当的新时代好青年 ●张瑜莹 近日,兵团党委组织部、兵团人力资源和社会保障局、兵团科协、兵团团委联合印发《关于表彰...
大处着眼 小处着手 成功没有捷径,成事却有方法。曾国藩有言:“大处着眼,小处着手。”意思是说:从大的目标去观察考虑,从小...
千方百计搜救落水人员 全力救... 新华社北京5月4日电  5月4日16时40分许,贵州毕节市黔西市新仁乡化屋村百里画廊景区发生游船倾覆...
贵州省委省政府迅速组织开展黔西... 5月4日16时40分许,毕节市黔西市新仁乡百里画廊景区六冲河水域遭遇突发大风发生游船倾覆事故。截至目...
“五一”,去这里感受浓浓的假日... 西海路因“豹街”的打造而焕发新生,北川青唐城嘉年华小镇以独具特色的文创产品和丰富多彩的文旅体验引得市...
“司机之家”:让暖心服务“一站... 转自:成都日报锦观累了歇脚、智能充电、实惠餐饮……“司机之家”:让暖心服务“一站到家” “华仔...
皮影博物馆:收藏光影里的春秋 转自:成都日报锦观皮影博物馆:收藏光影里的春秋 展示皮影操作。 绿树掩映的皮影艺术博物馆...
国羽第14次问鼎苏迪曼杯 北京时间5月4日傍晚,2025苏迪曼杯世界羽毛球混合团体赛在厦门落幕。决赛中混双冯彦哲/黄东萍、男单...
成都都市圈已建成省级中试平台2... 转自:成都日报锦观成都都市圈已建成省级中试平台21个 本报讯 (成都日报锦观新闻记者 黄欢) ...
贵州黔西游船发生侧翻事故,游客... 5月4日下午,贵州省黔西市六冲河东风库区附近发生一起游船侧翻事件。据央视新闻,截至4日22时30分左...
多个重点项目冲刺投产投运 转自:成都日报锦观多个重点项目冲刺投产投运 成都城投集团的重点项目也进展迅速。同乐安置...
夜游锦江玩法上新 转自:成都日报锦观传统与现代交织夜游锦江玩法上新 “锦江花月夜”主题活动。 “五一”假期...
张帅收获职业生涯单打第27冠 北京时间5月4日,中国女网老将张帅在ITF巡回赛W100岐阜站战胜一众新锐,并在女单决赛中以6∶3、...
“电力工作者的价值藏在小事的温... 转自:成都日报锦观国网成都高新连心桥党员服务队队长吴昊:“电力工作者的价值藏在小事的温度里” ...
AI助旅客便捷出行 转自:成都日报锦观构建数字化服务体系AI助旅客便捷出行 繁忙的成都东站汽车客运站。 鲜嫩...
北京铁路局4日拟增开旅客列车6... 转自:千龙网5月3日,北京局集团公司共计发送旅客143.1万人次。其中,北京地区发送旅客59.6万人...
定了! 5月10日通车 5月3日,记者从玉溪市永金高速公路投资建设有限公司获悉,根据《云南省人民政府关于同意新平(戛洒)至元...
山东墨龙:2024年亏损436... 中证智能财讯山东墨龙(00568)4月28日披露2024年度报告。报告期内,公司实现营业总收入13....