2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
创始人
2025-06-03 13:12:13
0

转自:前瞻产业研究院

行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技(688327.SH);拓尔思(300229.SZ)等

多模态大模型的核心技术-表征

表征学习是多模态任务的基础,其中包含了一些开放性问题,例如:如何结合来源不同的异质数据,如何处理不同模态的不同噪声等级,测试样本的某种模态缺失怎么办。相较于多模态,基于单模态的表征学习已被广泛且深入地研究。在Transformer出现之前,不同模态所适用的最佳表征学习模型不同,例如,CNN广泛适用CV领域,LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独提取N个模态的特征,之后采用Joint或Coordinated结构进行训练。不过这种思路在很快改变,随着越来越多工作证实Transformer在CV和NLP以及Speech领域都可以获得极佳的性能,仅使用Transformer统一多个模态、甚至多个跨模态任务成为可能。基于Transformer的多模态预训练模型在2019年后喷涌而出。

注:联合和协调表示的结构。点表示使用所有模态作为输入投射到相同的空间,另一方面,协调表示存在于自己的空间中,但通过相似性(例如欧几里得距离)或结构约束(例如偏序)进行协调。

多模态大模型的核心技术-翻译

跨模态翻译的目的是学习如何将源模态映射(map)到目标模态。例如:输入一张图像,我们希望生成一句话描述它,或者输入一句话,我们生成与之匹配的一张图。

基于语法模版,即人为设定多个针对目标模态的语法模版,将模型的预测结果插入模版中作为翻译结果。以图像描述为例,模版定义为who did what to whom in a place,其中有四个待替换的插槽。通过不同类型的目标/属性/场景检测器可以获得who, what, whom, place等具体单词,进而完成翻译。

编码-解码器(encoder-decoder):首先将源模态的数据编码为隐特征,后续被解码器用于生成目标模态。以图像描述为例,编码器(一般为CNN+spatial pooling)将图像编码为一个或多个特征向量,进而输入到RNN中以自回归的方式生成单词序列。

连续性生成(continuous generation):它针对源模态与目标模态都为流数据且在时间上严格对齐的任务。以文本合成语音为例,它与图像描述不同,语音数据与文本数据在时间上严格对齐。WaveNet采用了CNN并行预测+CTC loss解决该类问题。当然,编码-解码器理论上也可完成该任务,但需处理数据对齐问题。

多模态大模型的核心技术-对齐

对齐是多模态学习中的一个关键环节,它涉及如何在不同的数据模态之间发现和建立对应关系。通过对齐,多模态模型能够学习到不同模态之间的相互表示,从而增强对复杂场景的理解能力。跨模态对齐目的是挖掘多模态数据的子元素之间的关联性,例如visual grounding任务。在学习表征或翻译时也可能隐式地学习对齐。

显式对齐:此处对实例具有两个或更多子组件的对齐进行分类。如何衡量相似性在显式对齐中很重要。用于设计相似性度量的基于学习的方法可以分为无监督和监督。Unsupervised的大部分内容都受到统计机器翻译和基因组测序等方法的启发。一个典型的例子是动态时间扭曲(DTW)。使用CCA和高斯混合模型的监督方法已经被提出,但深度学习方法变得更加流行。

隐式对齐:与显式对齐不同,隐式对齐用作其他任务中使用的潜在表示。这可用于提高没有严格对齐的任务的方法的性能,例如VQA或机器翻译。方法大致可分为图模型和神经网络。图形模型已用于机器翻译和语音现象对齐。然而,这些方法需要在单词之间进行手动映射。神经网络近年来得到了广泛的应用,编码器-解码器模型可以解决这些传统的机器翻译问题。然而,如果不使用隐式对齐,对编码器的要求会很大(需要熟练地将整个文档和图像转换为潜在表示)。注意力机制是解决这个问题的一种众所周知的方法。

多模态对齐目前处于其发展的非常初期阶段,主要强调与人类指令的对齐,但忽略了如美德和社会规范等高层次和多样化的人类价值。确保无害性提出了一个重大且不可忽视的挑战。

多模态大模型的核心技术-融合

融合是将多模态数据或其特征结合在一起,以便进行统一的分析和决策。其核心在于如何有效结合不同模态的信息以增强学习任务的性能。融合是一个使用多种模式的数据进行预测的领域。最古老的多模式学习形式之一。优点包括能够通过使用来自多种模态的数据进行更稳健的预测,以及即使某些模态的数据丢失也能够进行预测。应用领域广泛,包括视听语音识别(AVSR)、情感识别、医学图像分析和多媒体事件检测。这里,Fusion分为模型无关的和基于模型的。

早期融合(Early Fusion):在特征层面进行融合,将不同模态的特征早早地合并,以充分利用各模态的互补信息。

晚期融合(Late Fusion):在决策层面进行融合,即在模型输出后再结合不同模态的结果,这有助于在最终决策时综合考虑各模态的见解。

混合融合(Hybrid Fusion):结合早期和晚期融合的优点,可能在多个层面进行特征和决策的结合,以实现更灵活的信息整合。

多模态融合是依赖于任务和数据的,现有工作中常常是多种融合手段的堆积,并未真正统一的理论支撑。最近,神经网络已成为处理多模态融合的一种非常流行的方式,然而图形模型和多核学习仍然被使用,特别是在训练数据有限或模型可解释性很重要的任务中。

多模态大模型的核心技术-协同

协同学习是通过使用另一种模态(拥有大量数据)的数据来设计一种模态模型的过程。在共同学习中,来自另一种模式的数据仅在训练期间使用,而不在测试期间使用。根据训练时使用的数据资源,协同学习可以分为并行、非并行和混合。

并行学习:并行数据方法需要训练数据集,其中来自一个模态的观察直接与来自其他模态的观察相关联。换句话说,当多模态观察来自相同的实例时,比如在一个音视频语音数据集中,视频和语音样本来自同一说话者。

非并行协同学习:非并行数据方法不需要不同模态观察之间的直接链接。这些方法通常通过在类别方面的重叠来实现协同学习。例如,在零样本学习中,常规的视觉对象识别数据集可以通过扩展为包括来自维基百科的第二个纯文本数据集,以提高视觉对象识别的泛化性能。

混合协同方法:在混合数据设置中,通过共享模态或数据集来连接模态。协同学习中使用的数据并行类型:并行-模式来自同一数据集,并且实例之间存在直接对应;非并行模式来自不同的数据集,没有重叠的实例,但在一般类别或概念上有重叠;混合模式-实例或概念由第三种模式或数据集连接。

多模态协同学习允许一种模态影响另一种模态的训练,利用跨模态的互补信息。值得注意的是,协同学习是与任务无关的,可以用于创建更好的融合、翻译和对齐模型。这一挑战可以通过诸如协同训练、多模态表示学习、概念接地和零样本学习(ZSL)等算法来解决,并已在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到广泛应用。

更多本行业研究分析详见前瞻产业研究院《全球及中国多模态大模型行业发展前景与投资战略规划分析报告》

同时前瞻产业研究院还提供产业新赛道研究、投资可行性研究、产业规划、园区规划、产业招商、产业图谱、产业大数据、智慧招商系统、行业地位证明、IPO咨询/募投可研、专精特新小巨人申报、十五五规划等解决方案。如需转载引用本篇文章内容,请注明资料来源(前瞻产业研究院)。

更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。更多企业数据、企业资讯、企业发展情况尽在【企查猫APP】,性价比最高功能最全的企业查询平台。

相关内容

热门资讯

欧盟委员会表示保加利亚已满足加...   新华社布鲁塞尔6月4日电 欧盟委员会4日表示,保加利亚已满足于2026年1月1日加入欧元区的标准...
通话75分钟!普京誓言回应乌袭... 每经编辑|毕陆名 据央视新闻5日报道,当地时间4日,俄罗斯总统新闻秘书佩斯科夫表示...
云南大理州洱源县发生5.0级地... 新京报讯 据中国地震局官微消息,据中国地震台网正式测定,6月5日4时31分在云南大理州洱源县(北纬2...
温故 | 北京这座“地下宫殿”... 转自:北京日报客户端前不久,全面改建的北京大葆台遗址博物馆重装亮相,再现幽燕2000余年大汉风韵。这...
加强监管,对未成年人“开盒”说...   根据中国互联网络信息中心发布的《第六次全国未成年人互联网使用情况调查报告》,当前,我国未成年人网...
【推进长三角一体化发展·我们的... 转自:安徽新闻网6月2日上午8时,一阵清越的汽笛声在歙县深渡港区响起,载着38名游客的“新安航运09...
攻关原创技术 国家高新区竞速新... 转自:经济参考报新华财经北京6月5日电 根据工业和信息化部最新初步估算,今年一季度,国家高新区实现规...
【读财报】5月董监高增减持动态... 新华财经北京6月5日电新华财经和面包财经研究员根据上市公司的信披数据统计,2025年5月,沪深两市上...
美国会预算办公室:特朗普关税将... 来源:央视新闻客户端央视记者获悉,当地时间6月4日,美国国会预算办公室发布的一份分析报告显示,美国总...
中药变首饰 传统“潮”起来 转自:嘉兴日报   昨天,秀洲区人民医院创新推出“中药首饰”系列,将传统中药材与时尚配饰巧妙融合,吸...
奢侈品被吐槽本身就是营销策略   羊城晚报财经评论员 戚耀琪  据北京商报报道,近日,巴黎世家推出一款女款半身裙引发热议,引发网友...
波音将花费超13亿美元和解两起... 来源:央视新闻客户端当地时间4日,美国证券交易委员会文件显示,波音公司5月29日与美司法部签署不起诉...
意法半导体CEO称未来三年将裁...   意法半导体首席执行官(CEO)Jean-Marc Chery周三表示,预计未来三年将有5,000...
经济日报刊文:发挥机器人投顾服... 一直以来,“人工智能+”为金融服务带来了很多变化。不久前陆续披露的上市银行2024年年报数据显示,多...
英媒:马克龙访意缓解两国“敌对... 来源:环球时报 【环球时报综合报道】法国《世界报》4日报道称,意大利总理梅洛尼和法国总统马克龙3日在...
川渝超200件乐舞文物汇聚大剧... 一件件承载巴蜀乐舞精魂的文物正以无声胜有声的姿态,在国家大剧院东展览厅内徐徐开启千年乐舞长卷。由国家...
一场食品安全会议,为何金句频出...   在昨日举行的广东省推进穿透式监管治理食品行业潜规则专项工作部署会上,省市场监管局副局长郭宇华的讲...
金字火腿易主莆田富豪8.7亿接... 长江商报消息 ●长江商报记者 潘瑞冬“火腿第一股”金字火腿(002515.SZ)完成实控人更迭。6月...
十五运365天365人|王锐祥... 编者按:第十五届全国运动会将于2025年11月在粤港澳三地举行。这是一场体育盛会,更是推动全民健身、...
宁波精达易主次年赚1.65亿创... 长江商报消息 ●长江商报记者 徐佳历时超过一年,宁波精达(603088.SH)易主后的首单重组收官。...