Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
创始人
2025-06-04 19:21:37
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。

在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。

近期,Meta 与约翰霍普金斯大学联合推出的CrossFlow框架,以全新的技术路径实现了跨模态生成的突破性进展,为生成式 AI 开辟了更高效、更通用的可能性。该文章已经被 CVPR 2025 收录为 Highlight。

核心创新:从 “噪声到数据” 到 “模态到模态”

基于 Diffusion 或者流匹配的生成模型通常从高斯噪声出发,通过逐步去噪或优化路径生成目标数据。然而,对于噪声的依赖限制了这类算法的灵活性和潜能。

近期,不少工作在探索如何摆脱对噪声的依赖,比如使用基于薛定谔桥的生成模型。然而这些算法往往很复杂,并且依旧局限于相似模态之间的生成(比如人类转猫脸等)。

而 CrossFlow 则深入分析了流匹配,并基于流匹配提出了一种非常简单跨模态生成新范式,可以直接在模态间进行映射,无需依赖噪声分布或额外条件机制。例如,在文本到图像生成中,模型直接使用流匹配学习从文本语义空间到图像空间的映射,省去了复杂的跨注意力机制(Cross-Attention),仅通过自注意力即可实现高效的文本到图像生成。

通过直接使用流匹配做模态间的映射,本文提出的模型在仅使用由自注意力和前向层组成的 transformer的情况下,不需要基于任务的特定设计,便在多个任务(图像生成、字幕生成、深度估计、超分辨率)上实现了媲美乃至超过最优算法的性能。

作者发现,使用流匹配做模态间映射的核心在于如何形成 regularized 的分布。

为了实现这一点,作者提出使用变分编码器(Variational Encoder):将输入模态(如文本)编码为与目标模态(如图像)同维度的正则化潜在空间,确保跨模态路径的平滑性和语义连贯性。然后,作者发现:仅需要训练一个最简单的流匹配模型,就可以实现这两个空间的映射。

同时,现在的图片生成模型往往依赖无分类器引导(Classifier-free guidance)。这种引导通过改变额外输入的 condition 来实现。为了在无额外条件机制的情况下实现无分类器引导,作者通过引入二元指示符,在单模型中实现条件与非条件生成的灵活切换,显著提升生成质量。

实验表现

作者通过大量实验证明了新范式的优势:

1. 在文本到图像生成任务上,相比于主流的使用跨注意力增加 text condition 的方法,CrossFlow 取得了更好的生成效果,并且有更好的 scaling 特性。

2.latent space 的差值算术操作:支持语义层面的加减运算(如 “戴帽子的狗”+“墨镜”-“帽子”=“戴墨镜的狗”),为生成内容提供前所未有的可控性,同时为图像编辑、平滑的视频生成等任务提供了新思路。

3.源分布可定制,让图像生成更灵活,同时显著降低训练成本,提高生成速度:原本的图像生成始终学习从噪声到图像的映射,因此流匹配所需要学到的 path 的复杂度是确定的。而 CrossFlow 则建立了一个可学习的源分布到图像的映射,通过不同的方法来学习源分布,可以改变两个分布之间的差异以及 path 的复杂度,实现更灵活、快速的生成。

具体来说,相比 DALL-E 2 等模型,CrossFlow 训练资源需求大幅减少(630 A100 GPU 天 vs. 数千天),而后续的研究工作也表明,通过对源分布的设计,可以进一步将训练时间缩短至 208 A100 GPU 天,并提高 6.62 倍的采样速度。

4. 由于流匹配的 “双向映射” 的特性(bi-directional flow property),可以直接将文本到图像生成模型反过来使用,成为一个图像描述(image captioning)模型——该模型在 COCO 上取得了SOTA水平。

5. 无需基于任务的特定设计,即可以在多个任务上(图像生成、图像描述、深度估计、超分辨率)的多个数据集上取得 SOTA 的水平,推动模型使用统一、单一框架适配多任务。

结语

CrossFlow 的诞生标志着生成式 AI 从 “噪声中创造” 迈向 “语义间流转” 的新阶段。其简洁的设计、卓越的性能与灵活的扩展性,为跨模态生成提供了更多的可能性。

相关内容

热门资讯

科创100ETF(588190... 6月6日,截止午间收盘,科创100ETF(588190)涨0.00%,报0.979元,成交额9668...
信创ETF富国(159538)... 6月6日,截止午间收盘,信创ETF富国(159538)涨0.34%,报1.184元,成交额1.87亿...
中证2000ETF指数(159... 6月6日,截止午间收盘,中证2000ETF指数(159535)涨0.09%,报1.161元,成交额1...
德阳旌阳区总工会多措并举关爱网... 来源:工人日报客户端 工人日报-中工网记者李娜 通讯员杨成媛随着数字经济蓬勃发展,网约送餐员已成为城...
“宇宙最安全路口”再现暖心一幕... 转自:中工网被网友号称“宇宙最安全”的东单路口,又发生了暖心一幕。近日,一位七旬老人在地铁东单站楼梯...
因对内塔尼亚胡发逮捕令,国际刑... 据新华社消息,当地时间6月5日,美国政府宣布对4名国际刑事法院(ICC)法官实施制裁。这4名法官被指...
科创成长ETF(588110)... 6月6日,截止午间收盘,科创成长ETF(588110)涨0.25%,报1.200元,成交额1381....
储能电池ETF(159566)... 6月6日,截止午间收盘,储能电池ETF(159566)涨0.00%,报1.272元,成交额143.8...
粽香传文脉,巧手绘童年——桂林... 孩子们在认真包粽子。(学校供图)当端午佳节巧遇“六一”儿童节,桂林市中隐小学校园内粽香氤氲,彩扇翩跹...
兰州市城关区安委办:以“三到位... 城关区安委办:以“三到位”全力做好高考期间安全保障工作  高考临近,为确保广大考生拥有安全、安静的应...
一年前普通市区老破小,一年后地... 来源:每日经济新闻 每经记者|包晶晶 每经编辑|陈梦妤 一年前,上海徐汇区东安新村还只是普普通通的“...
近1周新增规模同类居首,科创信... 截至2025年6月6日 10:20,上证科创板新一代信息技术指数下跌0.33%。成分股方面涨跌互现,...
2025 年开始降价卖掉房子的... 在房地产市场的漫长发展历程中,房价走势一直是大众关注的焦点。进入2025年, “2025年开始降价卖...
深证100ETF富国(1592... 6月6日,截止午间收盘,深证100ETF富国(159211)跌0.10%,报1.044元,成交额34...
关注眼健康 守护精彩“视”界(... 转自:人民日报今年6月6日是第三十个全国“爱眼日”,主题是“关注普遍的眼健康”。眼健康涉及全年龄段人...
越南国会通过决议,将63个省级... 来源:央视新闻客户端当地时间6月5日,在河内举行的越南国会常务委员会第46次会议上,全票通过了关于重...
森源电气:公司暂未涉及可控核聚... 投资者提问:公司涉及核聚变产品运用吗?董秘回答(森源电气(维权)SZ002358):您好,公司暂未涉...
芯片50ETF(159560)... 6月6日,截止午间收盘,芯片50ETF(159560)跌0.17%,报1.171元,成交额204.6...
集成电路ETF(159546)... 6月6日,截止午间收盘,集成电路ETF(159546)涨0.46%,报1.309元,成交额357.7...
证券ETF龙头(560090)... 6月6日,截止午间收盘,证券ETF龙头(560090)跌0.87%,报1.145元,成交额2102....