谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana
创始人
2025-10-23 15:19:03

新智元报道

编辑:犀牛 好困

【新智元导读】 你永远无法精确描述出梵高的笔触或王家卫的光影。AI创作的未来,是让AI直接「看懂」你的灵感,而不是去揣摩你的指令。

AI图像模型杀疯了!

年初,GPT-4o引爆了一股「吉卜力」热潮。

最近,全网更是玩疯了Nano Banana生成的3D手办。

虽然但是,不知道你有没有发现一个「华点」:

这些统一生成与编辑,更多都是在卷指令编辑与实体概念的组合生成;如果想作为智能创作工具,实际上还差着不少。

  • 当语言变得苍白无力。

想象一下,你希望将一张照片中人物的背包,换成另一张照片里裙子的那种图案。你该如何用语言,向AI精确描述那种复杂而不规则的波西米亚风格图案呢?

答案是:几乎不可能。

  • 当灵感并非实体物体。

更进一步,当你想借鉴的不是物体,而是一种抽象的「感觉」——

例如,一张老照片独特的「复古胶片感光影」,或者一种特定画家的「笔触风格」时,那些只擅长提取和复制一个具体的「物体」的模型便会束手无策。

要是AI既能听懂人话,又能精准Get这些抽象的风格,那该多好!

最近,这个瓶颈被港科大贾佳亚带领的AI研究团队给捅破了,Github 两周揽星1.6K,被很多国外创作者分享在YouTube和论坛上,引发大量讨论。

在这一篇名为「DreamOmni2: Multimodal Instruction-based Editing and Generation」的论文中,AI掌握了针对「抽象概念」的多模态编辑与生成能力。

· 论文地址:

https://arxiv.org/html/2510.06679v1

· 项目主页:

https://pbihao.github.io/projects/DreamOmni2/index.html

· 代码仓库:

https://github.com/dvlab-research/DreamOmni2

基于强大的FLUX Kontext模型,DreamOmni2在保留顶尖文生图与指令编辑能力的基础上,被赋予了处理多个参考图像的全新能力,使其成为更加智能的创作工具。

它不仅在传统任务上显著优于现有的开源模型,更在全新的抽象概念处理任务上,展现出超越谷歌最强Nano Banana的实力。

开源版Nano Banana,但更强

光说不练假把式,我们直接上实测。

首先来个经典的:输入一个产品,然后让角色来「带货」。

Prompt:

The character from the first image is holding the item from the second picture.

让图1里的角色,拿着图2里的物品。

这表情、这头发、这手指的细节,以及衣服的质感,简直完美有没有。

而且,产品本身也得到了很好的融入。

接下来,我们再试试三次元里的效果——让模型把图1中的男子,替换成图2中的女子。

结果出炉!

可以看到,在生成的图片中,背景的山峦和赛博感的光线效果几乎完美继承,人物身前的文字更是毫无影响。

人物方面,衣服和发型基本和原图2一致,面部的光线则模仿了图1中的效果。

可以说是十分惊艳了。

说到光线渲染,我们加大难度,让模型把图2中的红蓝风格,迁移到图1上。

Prompt:

Make the first image has the same light condition as the second image.

让图1的光照和图2保持一致。

没想到,DreamOmni2不仅保持了图1原有的像格栅一样的光照,融合之后的红蓝对比也十分强烈。

相比之下,GPT-4o(下图左)只迁移了色调,光影效果没有保留。Nano Banana(下图右)只能说稍稍变了点色,但不多。

风格迁移更是手拿把掐。

Prompt:

Replace the first image have the same image style as the second image.

将图1处理成与图2相同的风格

像素风的鸡——搞定。

二次元风的小姐姐——搞定。(太美了)

图案、文字,也通通不在话下。

Prompt:

On the cup, "Story" is displayed in the same font style as the reference image.

在杯子上用参考图里的同款字体显示“Story”字样

不仅如此,DreamOmni2也十分擅长对动作进行模仿。

Prompt:

Make the person from the first image has the same pose as person from the second image.

让图1里的人,模仿图2中的姿势

在DreamOmni2生成的结果中,胳膊和腿的动作基本完美复刻了图2。

但有些遗憾的是,人物的方向和手部的细节略有不同。

不过,相比起在语义理解上出了大问题的开源模型FLUX Kontext,那强了可不是一星半点。

如下图所示,显然,Kontext完全没有搞懂什么「第一张图」、「第二张图」,以及还要调整姿势什么的,于是干脆复制了一遍图2完事。

闭源模型这边,GPT-4o(下图左)的动作模仿比较到位,但面部的一致性不太好。

而Nano Banana(下图右)就有点抽象了,生生造出了个「三体人」:)

除了身体上的动作,DreamOmni2在面部微表情,以及发型这块编辑,也是又准又稳。

Prompt:

Make the person in the first image have the same expression as the person in the second image.

让图1里的人,做出和图2相同的表情。

嘴巴张开的大小、眼睛眯成的缝,简直一模一样,可以说是非常灿烂了。

这种效果如果像要靠语言去形容,恐怕是很难做到的。

Prompt:

Make the person in the first image have the same hairstyle as the person in the second image.

给图1里的人换上和图2中一样的发型

不管是背景的沙发,还是人物的动作、衣服,都一点没变;只有头发从黑色短发变成了长长的金色卷发。

注意看脖子,因头发遮挡而带来的阴影,也一并呈现了出来。

值得一提的是,DreamOmni2的多图编辑能力非常强。

比如,让图1的鹦鹉戴上图2的帽子,模仿图3中的氛围与色调。

可以看到,从鹦鹉的羽毛、帽子颜色,到整个背景的氛围都很好的复刻了上图中的火箭图片。

再上点难度:一下子输入4张图,然后让模型把前3张图组合起来,并改成图4的风格。

不管是女生衣服上的条纹、男生脸上的络腮胡,还是小狗的品种,都完美地迁移了过去。

同时,画中的笔触和色彩运用,也得到了比较忠实的呈现。

国外的网友们在体验之后,纷纷表示惊艳。

甚至还有人出了一期教程,直言「别再用Nano Banana了,DreamOmni2 ComfyUI才是最强的免费工作流!」

更多实测可见:

· Huggingface EditingDemo:

https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit

· Huggingface Generation Demo:

https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen

· Video Demo:

https://www.youtube.com/watch?v=8xpoiRK57uU

实验验证

当AI学会了「照样子改」

为了真实展现DreamOmni2性能,研究团队专门打造了一个全新的DreamOmni2基准测试集,包括205个多模态指令式编辑测试用例和114个指令式生成测试用例。

考察的重点便是多模态指令生成以及「抽象属性」和「具体物体」的混合编辑。

DreamOmni2基准测试中多模态指令生成及编辑示例

在多模态指令编辑测试中,相比于业界顶流GPT-4o和Nano Banana,DreamOmni2显示出了更精确的编辑结果和更好的一致性。

除了编辑指令的执行率之外,GPT-4o和Nano Banana在编辑时还会存在一些小问题,例如,经常引入意料之外的改动或不一致。比如,你让它换个姿势,它连衣服都给你换了。

在纵横比方面,GPT-4o只支持三种输出,而Nano Banana的则难以控制。

更有趣的是,GPT-4o处理过的图片还会「蜜汁发黄」。

相比之下,这些问题在DreamOmni2上都是不存在的。

多模态指令编辑的视觉比较

在定量分析的表格里,也反映出了这些问题。

DreamOmni2在「具体物体」和「抽象属性」上的得分都是最高的,一些方面超过了GPT-4o和Nano Banana。

在多模态指令生成方面,DreamOmni2表现同样惊艳。

实测结果表明,此前的开源模型在生成抽象属性方面十分困难。

例如下图第四行,将照片中的狗抽象成右边的素描风格,几个开源模型几乎是「无动于衷」。

相比之下,DreamOmni2不仅显著领先开源模型,而且还达到了与GPT-4o和Nano Banana相当甚至更好的水平。

多模态指令生成可视化对比

定量评估中,DreamOmni2也在人工评估和AI模型评估中均优于商业模型Nano Banana,取得了与GPT-4o相当的结果。

在生成准确性和对象一致性方面也要优于一众开源模型,即使在这些开源模型的专业领域内也是如此。

数据构建

从零开始,融合视觉灵感

要实现如此强大的功能,最大的挑战在于训练数据。

显然,这个世界上并不存在海量的「(源图像+参考图像+指令)-> 目标图像」这样的现成数据对。

为了解决这一问题,研究团队设计了一套的三阶段数据构建范式,为DreamOmni2「量身定制」了高质量的教材。

第一阶段:创造高质量的概念对

团队利用基础模型的文生图能力,提出了一种新颖的特征混合方案

它可以在生成图像的过程中,交换两个生成分支之间的注意力特征,从而创造出包含相同具体物体或相同抽象属性的高质量图像对。

相比于过去将两张图拼接在一起的方法,这种方案生成的图像分辨率更高,质量更好,且完全避免了边缘内容混淆的问题。

第二阶段:生成多模态「编辑」数据

利用第一阶段的数据,团队首先训练了一个「提取模型」。这个模型能从一张图像中精准「提取」出某个物体或某种抽象属性,并根据指令生成一张新的参考图。

随后,他们利用一个基于指令的编辑模型,对目标图像中提取出的物体或属性进行修改,从而创造出「源图像」。

这样一来,一个完整的编辑训练数据对就诞生了:(源图像 + 编辑指令 + 参考图像)-> 目标图像。

第三阶段:创建多模态「生成」教材

在第二阶段的基础上,团队再次使用「提取模型」,从源图像中提取出更多物体或属性,生成更多的参考图像。

这样,就构成了用于多模态生成的训练数据:(多张参考图像 + 生成指令)-> 目标图像。

通过这个三阶段流水线,团队成功构建了一个多样化、高质量的综合数据集,涵盖了对具体物体和抽象属性(如局部和全局属性)的生成和编辑,并且支持多个参考图像输入。

多模态指令编辑和生成训练数据的分布和样本

框架革新

让模型真正理解多图像输入

有了数据,还需要一个能「消化」这些数据的模型框架。

然而,当前SOTA的统一生成和编辑模型(如FLUX Kontext),并不支持多图像输入。

为此,团队对框架进行了两项关键创新,以及相应的训练机制:

1. 索引编码与位置编码移位

为了让模型能够准确区分多个参考图像并理解指令中对它们的引用(例如,图像1、图像2),引入了索引编码(Index Encoding)和位置编码偏移方案(Position Encoding Shift Scheme)。

这两者结合,让模型能够清晰、准确地处理多图像输入。

2. 视觉语言模型(VLM)与生成模型的联合训练

现实世界中,用户的指令往往是不规范、甚至逻辑混乱的;而模型训练时用的指令却是结构化的。

为了弥合这一鸿沟,团队创新性地提出了一种联合训练方案,显著提升了模型理解用户意图的能力,增强了在真实应用场景中的性能。

具体来说,他们让一个强大的VLM(Qwen2.5-VL)先来理解用户的复杂指令,并将其「翻译」成模型能理解的结构化格式,最后再交由生成/编辑模型去执行。

3. LoRA微调

在训练策略上,团队采用了LoRA微调方法。这样做的好处是,可以在不影响模型原有强大能力的基础上,使其多模态能力(多图输入和编辑/生成)能够在检测到参考图像时无缝激活,同时保留了基础模型的原始指令编辑能力。

AI创作的下一个前沿

DreamOmni2的出现,代表了AI创作工具发展的一个重要方向:从单一的语言模态,走向真正的多模态、多概念融合。

研究团队则通过提出两项全新的、高度实用的任务,并为此构建了完整的数据流水线和创新的模型框架,成功地推动了生成式AI的技术边界。

对于设计师、艺术家和每一个热爱创作的普通人来说,一个更加智能、更加全能的创作时代,正加速到来。

参考链接:

https://arxiv.org/html/2510.06679v1

https://pbihao.github.io/projects/DreamOmni2/index.html

https://github.com/dvlab-research/DreamOmni2

https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit

https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen

https://www.youtube.com/watch?v=8xpoiRK57uU

相关内容

热门资讯

美澳的稀土豪赌,为何专家直接泼... 一纸价值85亿美元的美澳矿产协议,配上“一年内稀土多到不知怎么用”的总统豪言,依然难以掩盖西方在稀土...
《余生有涯》大结局:秦南杀范建... 《余生有涯》大结局,叶思北取得了重大胜利——范建成强奸罪成立,被判16年有期徒刑。秦南因为故意杀人罪...
杨振宁:一个人如果专门做大题目... 享誉世界的物理学家、诺贝尔物理学奖获得者,中国科学院院士,清华大学教授、清华大学高等研究院名誉院长杨...
郭敬明名人经典语录励志爱情和搞...   郭敬明经典语录20句   1.你笑一次,我就可以高兴好几天;可看你哭一次,我就难过了好几年。  ...
关于马云的经典语录励志爱情和搞...   马云经典语录一   1、当你成功的时候,你说的所有话都是真理。   2、我永远相信只要永不放弃,...