2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
创始人
2025-06-01 13:21:36
0

转自:前瞻产业研究院

行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技(688327.SH);拓尔思(300229.SZ)等

多模态大模型的模型路径

多模态大模型的探索正在逐步取得进展,近年来产业聚焦在视觉等重点模态领域突破。理想中的“Any-to-Any”大模型,Google Gemini、Codi-2等均是处于探索阶段的方案,其最终技术方案的成熟还需要在各个模态领域的路线跑通,实现多模态知识学习,跨模态信息对齐共享,进而实现理想中多模态大模型。现阶段产业主要的工作还是聚焦在视觉等典型的重点模态,试图将Transformer大模型架构进一步在图像、视频、3D模型等模态领域引入使用,完善各个模态领域的感知和生成模型,再进一步实现更多模态之间的跨模态打通和融合。

多模态大模型的图像模型

早在2023年LLM的流行之前,过去产业界在对于图像的理解和生成模型领域已经打下了坚实的基础,其中也产生了CLIP、Stable Diffusion、GAN等典型的模型成果,孕育出了Midjourney、DALL·E等成熟的文生图应用。而更进一步,产业界也在积极探索将Transformer大模型引入图像相关任务领域(ViT,Vision Transformer;DiT,Diffusion Transformer),探索统一视觉大模型的建立,以及将LLM大语言模型与视觉模型进行更加密切的融合,包括近年来的GLIP、SAM、GPT-V都是其中的重点成果。

注:利用真实文本描述,通过CLIP生成的图像特征

多模态大模型的视频模型

由于视频本质上是由很多帧的图像叠加而成,因此本质上语言与视频模态的融合和语言和图像具有相当多的互通之处,产业界也在尝试将图像生成模型迁移到视频生成,先基于图像数据进行训练,再结合时间维度上的对齐,最终实现文生视频的效果。其中近年来也产生了VideoLDM、W.A.L.T.等典型的成果,并在近期也出现了Sora这样具有明显突破性效果的模型,其在视频生成领域沿用了Diffusion Transformer架构,并在视频类场景首次呈现出“智能涌现”的迹象。

视频本质上是一系列图像的连续展示,图片生成是视频生成的基础。图片生成的主流技术即扩散模型同样也是视频生成的主流技术,目前主流的文生视频模型的技术路线为基于文生图模型,通过在时间维度加入卷积或注意力,在生成的关键帧基础上实现时序对齐得到视频。在此基础上,插帧+超分、初始噪声对齐、基于LLM增强描述等方法均有助于增强时序对齐能力,实现更高质量的视频生成。Zero-shot领域的一系列研究则能够实现无需训练,直接将图片生成模型转化为视频生成模型。

多模态大模型的3D模型

实际上3D是由2D+空间信息构成,因此类似于由图像生成到视频生成的延伸,2D图片的生成方法理论上也可以迁移到3D中。近年来产业界也在积极探索将图像领域的GAN、自回归、Diffusion、VAE等骨干模型在3D模型生成任务中的扩展,其中也产生了3D GAN、MeshDiffusion、Instant3D等重点的模型成果。但相比图像和视频生成,目前的3D模型生成技术还处于早期发展阶段,相关模型的成熟度仍有较大提升空间。

3D数据表征:包括网格(Mesh)、点云(Point clouds)等显式表示,以及NeRF(Neural radiance fields,神经辐射场)等隐式表示,还包括体素(Voxel grids,3D空间中的像素)这类混合表示,其中NeRF具有强大的三维表达能力和潜在的广泛应用范围,是3D数据表征的关键技术;

3D数据集:包括3D数据(数据量和精度有限)、多视角图片(用途最为广泛)、单张图片(使用仍具有较大难度)等。目前3D对象数据集仍然稀缺,代表性的数据集包括ShapeNet(Chang等,2015)构建了5.1万个3D CAD模型,为3D数据集的充实做出开创贡献;Deitke等(2023)构建了Objaverse和Objaverse-xl数据集,分别有80万和1000万个3D对象;

3D生成模型:前馈生成(通过前向传递中直接生成结果)、基于优化的生成(每次生成需要迭代优化)、程序生成(根据规则创建3D模型)、生成式新视图合成(生成多视角图像);

3D应用:包括3D人生成、3D人脸生成、3D物体生成、3D场景生成等应用。

多模态大模型的音频模型

语音相关的AI技术在过去多年中已经较为成熟,但近年来Transformer大模型在AI音频领域的投入应用,还是成功推动了相关技术再上台阶,实现更优的音频理解和生成效果,其中重点的项目成果包括Whisper large-v3、VALL-E等。语音技术沿革可分为三阶段,深度学习驱动发展加速。语音技术主要向增强泛化能力的方向持续延伸,Transformer架构引领语音技术迭代浪潮。泛化能力是指模型对于未经训练的数据的适应能力,技术基础来自具有强大学习能力的网络架构和大量多样化的数据训练。语音模型泛化能力的增强主要体现在:从覆盖单一语种到多语种和方言,从处理人声到自然声音、音乐,从简单语音识别或合成到零样本学习和多任务集成。

Omni模型是利用neural audio codec,主要是对音频进行编码以实现音频合成。文本和声波会先分别进入embedding和adapter进行编码,再通过Omni模型进行合成和预测音频的token,最后通过扩散模型进行训练,量化再用解码器合成音频。

更多本行业研究分析详见前瞻产业研究院《全球及中国多模态大模型行业发展前景与投资战略规划分析报告》

同时前瞻产业研究院还提供产业新赛道研究、投资可行性研究、产业规划、园区规划、产业招商、产业图谱、产业大数据、智慧招商系统、行业地位证明、IPO咨询/募投可研、专精特新小巨人申报、十五五规划等解决方案。如需转载引用本篇文章内容,请注明资料来源(前瞻产业研究院)。

更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。更多企业数据、企业资讯、企业发展情况尽在【企查猫APP】,性价比最高功能最全的企业查询平台。

相关内容

热门资讯

隐于市井的徽州会馆 转自:衢州日报  口述:陈小卫 整理:王红岭  在衢州老城区的市井街巷中,隐匿着一座黛瓦白墙、古朴沧...
加沙民众在援助物资分发点遭袭 ... 当地时间6月2日,联合国秘书长古特雷斯发表声明,呼吁对加沙民众在援助物资分发点遭袭一事展开独立调查,...
绿通科技拟控股大摩半导体 消息... 每经记者|王佳飞    每经编辑|宋思艰     6月2日,绿通科技(SZ3013...
小鹏MONA M03新版型升级... 5月28日,小鹏MONA M03升级上市,并重磅加推4款全新版型,分别为小鹏MONA M03 502...
中药减肥走红网络 中医减重配方中常见的荷叶、陈皮和山楂 “国家喊你减肥”话题热度不减,越来越多的人开始重视自己的体重。...
痛心!10岁男孩端午节走失,遗... 澎湃新闻 综合报道6月2日晚,山东省滕州市公安局发布一则警情通报:2025年5月31日22时35分许...
端午假期,大运河文化旅游景区游... 转自:千龙网记者从北京市园林绿化局获悉,端午假期三天,全市公园共接待游客449.21万人次,与去年同...
剪刀架山,剪来茶花引凤凰 □雷扬梅 剪刀架山架剪刀,一剪石头开花生荒凉,一剪春风引凤凰。 剪刀架山位于云阳县沙沱镇复垭村。这座...
张雪峰突然宣布暂停直播 近日,张雪峰2025届高报直播结束,并宣布暂停直播两个月。 张雪峰在高考志愿填报直播结束时突然哽咽,...
花105万元买基金亏30万元 ... 近日,一则“八旬老人105万买基金亏30万状告银行”的新闻,犹如一颗投入平静湖面的石子,在金融圈和社...
富达中华地区基金加仓比亚迪,减...   彭博对基金持仓的分析显示,富达中华地区基金(Fidelity China Region Fund...
瞒报违规吃喝“捂盖子”, 是严... 转自:衢州日报  节日期间,中央层面深入贯彻中央八项规定精神学习教育工作专班、中央纪委办公厅公开通报...
@大学生 网络招聘会、能力培训... 6月2日,重庆市人力社保局发布消息,本周,重庆有16场大学生就业创业活动等你来参与,包括“大创慧谷·...
英联股份新增质押3823.58... 6月3日,英联股份公告,控股股东翁伟武将其持有的英联股份3823.58万股股份进行质押,质押用途为质...
科沃斯地宝 mini快闪店登陆... 5月30日,科沃斯“小而强大 天生出彩”快闪活动在成都万象城惊喜亮相。本次活动,科沃斯以潮流色彩及年...
前总统纷纷站台 候选人三足鼎立 5月29日,一名女子在韩国仁川国际机场出发区的投票站投票。 韩国街头的选举海报 韩国第21届总...
不怕“挑担子” 转自:衢州日报  伟平  市委八届九次全会吹响了推进高水平开放、打造长三角内陆开放桥头堡的奋进号角。...
冷链江湖 | 万纬轻资产解药 (转自:观点网)观点网 作为国内冷链行业的早期探索者,万纬物流体现着地产时代转型的缩影与中国冷链物流...
虎嗅【作·嗅之星】周榜第264... 作·嗅之星榜单,以周榜的形式,呈现每周新鲜出炉的优秀作品。2025年5月23日~2025年5月29日...
巨轮智能新增质押1000万股 ... 6月3日,巨轮智能公告,控股股东吴潮忠将其持有的巨轮智能1000.00万股股份进行质押,质押用途为质...