打破跨模态干扰,快手东北大学联合提出统一多模态框架
创始人
2025-06-09 18:07:22
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

多模态检索是信息理解与获取的关键技术,但其中的跨模态干扰问题一直是一大难题。

可行的解决办法是构建一种统一的多模态表示方式,为此,来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE

UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。

它从数据策划与训练机制两个关键视角出发,用对比学习的机制重新定义了统一多模态表示学习的范式。

在细粒度检索、指令检索等多个评测中,UNITE框架都斩获了最佳成绩。

模态感知对比学习,缓解跨模态干扰

在多模态检索任务中,不同模态(文本、图像、视频)天然存在分布差异。

如果在训练时将所有模态混合进行对比学习,会导致表示空间产生语义扭曲或干扰噪声,影响模型对各模态语义的准确建模。

为了解决这一挑战,UNITE团队提出了Modal-Aware Masked Contrastive Learning(MAMCL)这一对比学习机制,能显著缓解跨模态“相互干扰”。

在传统InfoNCE损失下,模型会尝试最大化正样本对之间的相似度,并最小化其与负样本之间的相似度:

但这种方式不能区分模态组合,例如,一个query的正样本为文本模态,但其负样本可能是图像、视频或者其他模态组合。这可能导致模型用图像来学文本相似度,产生模态冲突。

MAMCL的核心思想是模态掩码约束,也就是只在与当前query目标模态一致的负样本中进行对比,从而避免模态间的错误竞争。

给定一个批次中个query,每个query()对应一个正样本和个负样本,构造相似度矩阵:

其中是第个候选样本,是温度系数。

接下来引入模态掩码矩阵,用于标记候选样本与正样本模态是否一致:

其中表示提取候选样本的模态标签(例如 text, image, video, text+video)。

然后,构造模态感知掩码相似度矩阵:

这一步确保在计算损失时,仅考虑模态一致的样本

最终,MAMCL损失定义为(p是当前query对应的正样本索引):

为了平衡泛化能力与判别能力,UNITE采用了“检索适应 + 指令微调”的两阶段训练方案:

多个评测中斩获最佳成绩

在细粒度检索、指令检索等多个评测中,UNITE框架都斩获了最佳成绩。

图像-文本检索任务中,在ShareGPT4V、Urban1K和DOCCI上,UNITE显著超越E5-V和VLM2Vec等模型;

视频-文本检索方面,UNITE的2B模型在CaReBench三个子任务(General/Spatial/Temporal)中的General和Spatial里超越了前SOTA,7B模型以显著领先水平刷新当前最好表现。

UNITE 7B在CaReBench上分别达到86.0,86.9,86.5,84.8,52.4,55.4。

指令检索任务里,作者的UNITE系列模型也在多个数据集上表现出色。

具体来说,在涵盖分类、VQA、检索、定位四类任务共36个数据集的MMEB Benchmark中,UNITE 7B达到了最优性能70.3,超越了更大规模的模型mmE5 11B (69.8) 和IDMR 26B (69.2)。

在合成视频检索任务CoVR上,UNITE 2B和UNITE 7B达到了69.1和72.5,均明显领先于现有SOTA模型(60.1)。

为验证其通用性,团队还在多个标准跨模态检索任务上进行了评估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任务上,展现了良好的通用表征能力。

综合来看,UNITE支持文本、图像、视频及融合模态内容,并展现了综合最优性能。

其可视化结果如下:

另外在实验过程当中,作者还有三个关键发现。

一是视频-文本数据具备“统一模态”的核心能力

具体来说,视频-文本对数据在所有配置中表现最为突出,不仅在视频检索任务中遥遥领先(如MSR-VTT、MSVD),甚至在图文检索任务中也超越了基于图像-文本对训练的模型。

二是指令类任务更依赖文本主导的数据支撑——

尽管视频-文本对数据在一般检索任务中表现出色,但在复杂检索指令跟随类任务(如MMEB、CoVR)中,其优势反而不明显。

这类任务需要模型理解长文本、复杂逻辑或多阶段指令,研究认为,Text–Text数据提升了语言理解与逻辑构建能力,而Text–Image数据提供精准的视觉语义映射,利于模态对齐。

最后,细粒度Text-Video样本的添加策略影响巨大,直接在第一阶段“检索适应”中融合细粒度视频-文本样本,能带来整体性能最优解,相比传统“先对齐后微调”的做法更加有效且高效。

更多方法和实验细节,请参照论文。

论文链接:https://arxiv.org/pdf/2505.19650

代码链接:https://github.com/friedrichor/UNITE

项目链接:https://friedrichor.github.io/projects/UNITE

模型/数据链接:https://huggingface.co/collections/friedrichor/unite-682da30c4540abccd3da3a6b

相关内容

热门资讯

安徽公布高考查分和分数线划定时... 转自:中安在线目前,我省网上评卷工作已启动,预计于6月25日公布各批次录取控制分数线和考生成绩。在成...
IonQ(IONQ.US)、阿...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 智通财经APP获悉,...
美股开盘:三大指数小幅高开 (转自:科创100ETF基金)  美股开盘,道指涨0.02%,标普500指数涨0.1%,纳指涨0.2...
国药集团出手!000403 明... 6月9日晚间,派斯双林生物制药股份有限公司发布公告称,6月8日,公司控股股东共青城胜帮英豪投资合伙企...
铸造铝合金明日挂牌 来源:果业研究现在都流行把挂牌价挂的很低,就是不想让开盘就跌是吧。挂牌价这么低,明天大家都竞价去买多...
“能源马兰花”在鄂托克前旗草原... 转自:草原云六月,鄂尔多斯市鄂托克前旗草原万亩马兰花迎来盛花期,蓝紫色的花瓣在阳光下鲜艳夺目。同时,...
2米26的NBA球星文班亚马剃... 6月9日,据NBA官方微博,马刺当家球星维克托·文班亚马已经剃发,并将在少林寺开启为期十天的闭关修炼...
美股三大指数集体高开 稳定币第... 观点网讯:6月9日,美股三大指数集体高开,道指涨0.05%,纳指涨0.23%,标普500指数涨0.1...
海光信息拟1160亿元换股吸收... 财联社6月9日讯,今日晚间,海光信息、中科曙光纷纷发布公告,披露重组进展,两家公司股票明日双双复牌。...
俄联邦安全局:阻止一起针对军工... 转自:新华网新华社莫斯科6月9日电(记者刘恺)俄罗斯联邦安全局9日说,他们阻止了针对莫斯科地区一家军...
张裕A(000869.SZ):... 格隆汇6月9日丨张裕A(000869.SZ)公布,公司下属的Francs Champs Partic...
男子停车时撞向路边门店致1死2... 6月9日,湖南省益阳市公安局交通警察支队发布警情通报:2025年6月9日7时50分左右,蒋某(男,5...
SpaceX一年卫星坠落超30... 【#SpaceX一年卫星坠落超300颗#,SpaceX为何“坠落”事件频发?】近日,美国国家航空航天...
高考后原来有这么多事可以做老师... 转自:JSTV荔枝视频 【#高考后原来有这么多事可以做#...
新开户有机会获得labubu?...   新京报贝壳财经讯(记者潘亦纯)目前,平安银行部分分行推出“平安好邻居”新开户回馈活动,参与即有机...
14万股民泪奔!“600760...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 二季度以来,军工板块...
控制权转让?合盛硅业回应:该传... 6月9日晚间,合盛硅业(603260)发布声明辟谣市场传言。公司表示,近期某传闻严重不实,公司将采取...
ST东时:难以在期限届满前完成... 转自:北京商报北京商报讯(记者 吴其芸)6月9日,东方时尚驾驶学校股份有限公司(以下简称“ST东时(...
西北农林科技大学:探寻蕴藏在麦... 中新网陕西杨凌6月9日电 (阿琳娜 王学锋)“元狩三年秋……遣谒者劝有水灾郡种宿麦。”“大中祥符八年...
【风口解读】5连板菲林格尔将停...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 6月9日晚间,菲林格...