视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
创始人
2025-06-10 21:40:17
0

论文第一作者为何浩然,香港科技大学二年级博士,他的研究方向包括强化学习、生成流模型(GFlowNets)以及具身智能,通讯作者为香港科技大学电子与计算机工程系、计算机科学与工程系助理教授潘玲。

测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?

为了回答这一问题,最近香港科技大学联合快手可灵团队推出 Evolutionary Search (EvoSearch)方法,通过提高推理时的计算量来大幅提升模型的生成质量,支持图像和视频生成,支持目前最先进的 diffusion-based 和 flow-based 模型。EvoSearch 无需训练,无需梯度更新,即可在一系列任务上取得显著最优效果,并且表现出良好的 scaling up 能力、鲁棒性和泛化性。

随着测试时计算量提升,EvoSearch 表明 SD2.1 和 Flux.1-dev 也有潜力媲美甚至超过 GPT4o。对于视频生成,Wan 1.3B 也能超过 Wan 14B 和 Hunyuan 13B,展现了 test-time scaling 补充 training-time scaling 的潜力和研究空间

目前,该项目的论文和代码均已开源。

  • 论文标题:Scaling Image and Video Generation via Test-Time Evolutionary Search
  • 项目主页:https://tinnerhrhe.github.io/evosearch/
  • 代码:https://github.com/tinnerhrhe/EvoSearch-codes
  • 论文:https://arxiv.org/abs/2505.17618

我们来看 EvoSearch 与其他一些方法的效果对比:

1.Test-Time Scaling 的本质

这里团队将测试时扩展(Test-Time Scaling)和 RL post-training 分开来看,定义前者无需参数更新,后者需要计算资源进行后训练。Test-time scaling 和 RL post-training 本质都是为了激发预训练模型的能力,使其与人类偏好(奖励)对齐。给定一个预训练模型和奖励函数,目的是拟合如下的目标分布:

其中是归一化常数,需要遍历整个状态空间来计算。这是不可行的,因为 diffusion 和 flow 模型的状态空间都是高维的。这导致直接从目标分布采样不可行

2. 当前方法的局限性

诸如 RL 的后训练方法虽然也能从目标分布采样,但需要构造数据以及大量计算资源重新更新模型参数,导致代价很大并且很难 scale up。目前在视觉领域,最有效的 test-time scaling 方法包括 Best-of-N,它基于重要性采样(Importance Sampling)来拟合目标分布采样。Best-of-N 随机采样多个样本,并筛选出奖励最高的 N 个。在基于 diffusion 和 flow 模型的图像和视频生成任务上,Best-of-N 的样本通常是初始噪声。

最近的一些工作提出了更高级的采样方法,可以统一称为 Particle Sampling。这类方法将搜索空间拓展为整条去噪轨迹,在去噪过程中不断保留好的样本,并丢掉表现差的样本(类似 beam search)。这类方法虽然也能表现出 scaling up 性质,但缺少探索新的状态空间能力,并且会减少生成样本的多样性

团队做了一个小实验,当目标分布和预训练分布不一致(甚至可能是 o.o.d.),基于学习的 RL 方法会出现奖励过优化的现象(reward over-optimization)。诸如 best-of-N 和 particle sampling 的搜索方法也不能找到目标分布所有的模态。但团队的方法 EvoSearch 成功拟合了目标分布,并且取得了最高的奖励值

3. EvoSearch 解读

团队将图像和视频生成的 test-time scaling 问题重构成演化搜索问题。

EvoSearch 框架图

团队的方法受如下的洞见启发:他们发现在整个去噪轨迹中,高质量的样本往往会聚集在一起。因此,当搜索到高质量的父代,则可以在父代周围的空间进行探索从而有效找到更高质量的样本。从下图可以看到去噪轨迹中的样本在低维空间的分布与奖励空间具有强相关性。

基于此,团队设计了如下两种变异模式:

  • 初始噪声变异:EvoSearch 通过如下正交操作保持初始噪声仍然符合高斯分布

这些变异方式一方面加强了对于新的状态空间探索,另一方面又避免了偏离去噪轨迹的预训练分布。

我们定义了 evolution schedulepopulation size schedule 来进行演化搜索,这两种 schedule 的设置取决于可用的测试时计算量大小。

EvoSearch 算法伪代码如下:

4.EvoSearch 实验结果

1. 对于图片生成任务,在 Stable Diffusion 2.1 和 Flux.1-dev 上,EvoSearch 展示了最优的 scaling up 性质。即使测试时计算量扩大了 1e4 量级,仍能保持上升势头。对于视频生成任务,EvoSearch 在 VBench,VBench2.0 以及 VideoGen-Eval 中的 prompts 上也能达到最高的 reward 提升幅度。

2.EvoSearch 也能泛化到分布外(unseen)的评估指标,显示了最优的泛化性和鲁棒性。

3. EvoSearch 在人类评估上也达到最优胜率。这得益于他高的生成多样性,平衡了 exploration 和 exploitation。

4. 下面是更多的可视化结果:

更多细节请见原论文和项目网站。

相关内容

热门资讯

香江美丽传说:叶童,尽兴而归 《浪姐6》很没劲地播完了,叶童不出意料地拿下总冠军。“不出意料”, 既是因为她辈份摆在哪,更是因为她...
《长安的荔枝》中,赵辛民为迎合... 追了几集《长安的荔枝》,发现自己就是在看大唐职场的牛马图鉴——无脑上司+憋屈下属,简直就是千年不变的...
2025,高分韩剧都有哪些好创... 文|未盈‍‍‍‍‍‍‍‍‍‍‍最近,韩剧《未知的首尔》以8.8分的成绩登上豆瓣高分榜,这部剧以双胞胎...
何为共产党人的风范?文献纪录片... “在20世纪中国苦难而辉煌的历史进程中,涌现出一大批用特殊材料制成的优秀共产党人。陈云同志身上表现出...
单依纯的超绝“疯人感”我爱死!... ☆ 去年湖南卫视《歌手》在“六旬老太守国门”的迷因(meme)中出圈,亚当·兰伯特作为“调音级”选手...
有点肉肉的女生,夏天这么穿巨好... 现在天气也是越来越热啦,每次翻看评论区还有私信总能看到不少姐妹的热切呼喊:屁股大胸大的要怎么搭衣服啊...
《绽放的许开心》中女爱情能见度... 德塔文电视剧景气日报2025-06-11电视剧当日景气TOP10TOP10排名临江仙(李青月49% ...
韦东奕获世界纪录认证,72小时... 据世界纪录认证机构(WRCA)官方发布,截至2025年6月7日22:00,韦东奕抖音账号粉丝突破19...
特别策划|“硬核”剧异军突起微... 2025年1—5月,电视剧市场竞争激烈,一线电视台凭借优质剧集资源巩固自身优势,体现频道特质的独播剧...
AI时代,不要和马儿赛马 内容来源:本文根据季益祥在“人效增长”CSPI联合改进大讲堂中的分享整理而成。 分享嘉宾:季益祥,行...
盘点2025上半年高分国产剧,... 截至2025年6月,国产剧市场在上半年呈现出百花齐放的态势。豆瓣评分7分以上的剧集涵盖了古装、悬疑、...
揭秘!《七根心简》中,一万三的... 刘浩存、宋威龙等领衔主演的悬疑惊悚冒险剧《七根心简》中,罗韧、一万三、木代、炎红砂和曹严华等五人齐聚...
黄晓明演绎多面特工!谍战悬疑剧... 极目新闻记者 张聪多部大剧之中再度挤入种子选手。6月9日,由毛卫宁担任艺术总监、王逸伟执导、袁帅担任...
高明:娶初恋为妻相守到老,与儿... 对于一个耄耋老人来说,什么才是真正的幸福?或许就是身边有老伴不离不弃,儿女成才、事业有成,孙辈绕膝,...
6月17日开播!王凯坐镇,商业... 文案 |易幸编辑 |南枫国产剧有一类题材关注度高,拍摄难度却不低——商战。但凡是商战剧,通常都会跟上...
《长安的荔枝》凭啥赢得了打工人... 大象新闻记者 申子仲就在全国的莘莘学子们涌进考场赶考的这天,平行世界里一位叫李善德的小吏被同事们摆了...
谭维维逐风者丨她越群山 2017年,谭维维曾在四川大凉山进行音乐采风,她受采风途中遇见的独属于彝族女性的“换童裙”成人礼仪式...
《护宝寻踪》即将收官!没想到他... 电视剧《护宝寻踪》本身寻宝跟盗墓两条线都是非常有看点的。毕竟在寻找历史遗留痕迹的同时,能够更加了解过...
要美到这个程度,才能30年不过... 最近权谋剧《藏海传》热播,女主角张婧仪前脚和肖战剧宣,后脚就进了新剧组。新拍的现偶叫做《野狗骨头》,...