LeapAlign如何从根本上改变图像生成的对齐方式

网易专栏4小时前发布 nxnqh
3 0 0

🤖 AI总结

主题

一种名为LeapAlign的AI图像生成模型对齐训练方法,能有效更新早期生成步骤,提升复杂场景生成质量。

摘要

LeapAlign通过构建两步跃迁捷径和梯度折扣,使AI图像生成模型能有效更新早期生成步骤,在组合对齐任务上显著优于现有方法,提升复杂场景生成质量。

关键信息

  • 1 LeapAlign通过两步跃迁轨迹和梯度折扣实现早期步骤的有效梯度更新。
  • 2 在通用偏好对齐和组合对齐任务上全面超越现有方法。
  • 3 该方法能显著提升多物体、空间关系等复杂描述的生成准确性。

LeapAlign如何从根本上改变图像生成的对齐方式

这项由澳大利亚国立大学与字节跳动Seed团队联合开展的研究,以预印本形式发布于2026年4月16日,论文编号为arXiv:2604.15311。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。

一、当AI绘图遇上”偏科”难题

每当你在网上看到那些令人叹服的AI生成图像,背后的图像生成模型经过了大量的训练,学会了如何把一团白噪声一步一步”雕刻”成精美的画面。然而,这类模型并不总是能精准理解人类的喜好——有时候画出来的东西虽然看起来不错,但就是差那么一口气,要么色彩不够对味,要么物体摆放位置别扭,要么数量对不上。

为了解决这个问题,研究人员发展出了一套叫做”偏好对齐”的技术,简单来说就是让AI模型更好地迎合人类审美和指令。这就好比训练一位厨师:厨师原本会做各种菜,但要让他做出顾客真正喜欢的味道,就需要通过顾客的反馈不断调整烹饪方式。

在这个领域里,目前主要有两大流派的训练方法。第一种流派借鉴了语言模型的训练思路,用一种叫做”策略梯度”(以GRPO为代表)的方法,通过反复试错来调整模型,就像厨师靠不断试吃顾客的反馈来改进菜品。第二种流派则走了一条更直接的路:因为图像生成过程在数学上是连续可微的,所以可以把”顾客满意度”的信号直接通过整个生成过程反向传递,告诉模型每一步到底哪里出了问题。后者被称为”直接梯度法”,理论上更精准、收敛更快。

但问题来了。图像生成不是一步完成的,而是像一部电影制作一样分成许多工序。以当前顶尖的Flux模型为例,生成一张图片往往需要25步甚至更多步骤。早期步骤(就像电影的剧本创作阶段)决定了画面的整体构图和布局;晚期步骤(就像后期特效阶段)负责细节打磨。如果想把”顾客不满意”的信号从最终的图像一路传回到早期步骤,梯度需要穿越漫长的计算链条,会导致两个严重问题:一是内存爆炸——要记录每一步的中间状态需要天文数字的显存;二是梯度爆炸——信号在传递过程中会越来越大或越来越小,最终变得毫无意义,就像一条电话信号太弱的线路,传到终点时已经是噪音。

正因为如此,现有的直接梯度方法大多只能在生成过程的最后几步上做文章,对于决定整体构图的早期步骤束手无策。这就相当于你只能调整厨师最后的摆盘工序,却无法干预食材选择和烹饪火候,效果自然大打折扣。

来自澳大利亚国立大学和字节跳动Seed团队的研究人员决心正面突破这一瓶颈。他们提出了LeapAlign,一种全新的对齐训练方法,核心思路是:与其让梯度跋涉整条漫长的生成路径,不如在路径上找两个关键节点,用”跨越式跳跃”把它们直接连接起来,构建一条只有两步的超级捷径。沿着这条捷径,梯度可以轻松到达生成过程的任意位置,包括那些至关重要的早期步骤。

二、流匹配模型:AI绘图的底层逻辑

在深入了解LeapAlign的设计之前,有必要先理解它所针对的”流匹配模型”究竟是怎么工作的。

流匹配模型的核心思想可以用一个制冰的比喻来理解。假设有一大盆浑浊的热水(这代表随机噪声,数学上叫高斯噪声),和一块精雕细琢的透明冰雕(这代表一张高质量的图片)。流匹配模型学习的是一条从热水到冰雕的”变化路径”——它在每一个时间点预测水应该朝哪个方向流动、以什么速度凝固,最终让混沌的噪声一步步变成有序的图像。这个”朝哪个方向流动”就是所谓的”速度场”。

用数学语言说,在时间步t处,中间状态$x_t$可以表达为干净图像$x_0$和纯噪声$x_1$的加权组合:$x_t = \\alpha_t x_0 + \\beta_t x_1$,其中$\\alpha_t$和$\\beta_t$是随时间变化的权重系数。神经网络$v_\heta$的任务就是预测这个速度场,训练目标是让预测的速度和真实速度尽可能接近。

特别地,当采用”整流流匹配”这一最简化的版本时,$\\alpha_t = 1-t$,$\\beta_t = t$,速度就等于$x_1 – x_0$,路径是一条直线。这种简洁的设计赋予了流匹配模型一个极其有用的性质:从任意时间步k处的状态$x_k$,可以直接用一步公式估算另一个时间步j处的状态,即$\\hat{x}_{j|k} = x_k – (k-j) \\cdot v_\heta(x_k, k)$。这个公式就是LeapAlign的基石——它允许模型”跨越”多个时间步,直接从一个位置跳到另一个位置,而不需要逐步前进。

三、LeapAlign的”跃迁捷径”:如何用两步走完全程

现在到了核心设计部分。LeapAlign的运作方式就像是在漫长的生产流水线上安装了一条内部专用快速通道。

每次训练迭代时,LeapAlign首先完整地运行一次图像生成过程,从纯噪声开始,经历全部25步(或更多步),生成一张完整的图像。这个完整生成过程产生了一系列中间状态,就像制冰过程中每一分钟拍下的照片,从热水到冰雕的每个阶段都有记录。

然后,从这串中间状态中随机选取两个时间点k和j,且k比j更靠近噪声端(k > j)。这两个时间点就是捷径的两个锚点。

接下来构建”跃迁轨迹”:第一跃,从时间步k处的真实状态$x_k$出发,用一步跳跃公式直接预测时间步j处的状态,得到$\\hat{x}_{j|k}$;第二跃,从时间步j处的真实状态$x_j$出发,再次用一步跳跃公式直接预测最终图像,得到$\\hat{x}_{0|j}$。这样,整条训练用的”跃迁轨迹”就只有两步,内存消耗固定在一个很小的数值,完全不随原始生成步数增加而膨胀。

但这里有一个微妙的设计细节,研究团队称之为”潜变量连接器”。问题在于,一步跳跃得到的$\\hat{x}_{j|k}$只是对真实$x_j$的近似,两者之间存在误差。如果直接拿近似值做第二跃的起点,误差会累积。研究团队的解决方案是:让第二跃从真实的$x_j$出发,但同时保持梯度只沿着近似预测的路径流动。用技术语言说,就是$x_j = \\hat{x}_{j|k} + \ext{stop\\_gradient}(x_j – \\hat{x}_{j|k})$,其中stop_gradient操作让那个误差修正项在反向传播时”隐形”,不参与梯度计算。同样的处理也用在最终图像上:$x_0 = \\hat{x}_{0|j} + \ext{stop\\_gradient}(x_0 – \\hat{x}_{0|j})$。

这个设计的精妙之处在于:正向计算时,我们用真实状态保证了数值的准确性;反向传播时,梯度只沿着那条简洁的两步捷径传递,既避免了内存爆炸,又让早期步骤能够收到来自最终图像质量的直接信号。

由于k和j是从整个生成轨迹中随机选取的,有时候捷径横跨早期的大跨度时间段,有时候集中在晚期的精细调整阶段。这种随机性确保了模型在训练过程中,早期步骤和晚期步骤都能得到充分的梯度更新,就像轮换训练一支球队的不同球员,而不是只盯着几个明星球员反复练习。

四、梯度折扣:留住有用信号,去除危险噪声

构建了跃迁轨迹之后,研究团队还需要解决另一个数学问题:梯度爆炸。

当梯度沿着这条两步捷径传递时,它包含三个组成部分。第一个是”单步梯度k”,来自第一跃预测的贡献;第二个是”单步梯度j”,来自第二跃预测的贡献;第三个是”嵌套梯度”,这是跨越两步才会出现的交叉项,它捕获了两个时间步之间的相互作用关系。

嵌套梯度的存在是双刃剑。它包含了跨步骤的有用信息——毕竟早期步骤和晚期步骤并不是完全独立的,知道它们如何相互影响对训练很有价值。然而,嵌套梯度的数值可能非常大(它的系数包含了两个时间差之积j×(k-j)),一旦数值过大就会导致梯度爆炸,让训练崩溃。

以前的DRTune方法选择了一刀切的做法:直接把嵌套梯度完全去掉,从根本上消除爆炸风险。这就像为了防止一锅汤太辣,直接把辣椒全扔了——安全是安全了,但汤的风味也损失了。

LeapAlign的做法更为精细。研究团队引入了一个叫做”梯度折扣因子”$\\alpha$(取值在0到1之间)的参数,通过修改第二跃的计算方式,让嵌套梯度乘以$\\alpha$这个折扣系数:$\\hat{x}_{0|j} = x_j – j \\cdot v_\heta(\\alpha x_j + (1-\\alpha) \ext{stop\\_gradient}(x_j))$。在正向计算时,这个表达式和原来一样,因为$\\alpha x_j + (1-\\alpha)x_j = x_j$;但在反向传播时,嵌套梯度会被缩小到$\\alpha$倍。

当$\\alpha = 0$时,嵌套梯度被完全移除,相当于DRTune的策略;当$\\alpha = 1$时,嵌套梯度保持原始大小,风险最高;当$\\alpha$取中间值(实验中最优为0.3)时,嵌套梯度保留了大部分有用信息,同时数值被压缩到安全范围。实验证明,即使只用嵌套梯度来训练早期步骤(移除单步梯度k),适当折扣($\\alpha=0.3$)下的性能也远超完全去除($\\alpha=0$)或完全保留($\\alpha=1$)的情况。

五、让相似轨迹说更多话:轨迹相似度加权

训练过程中还存在另一个微妙问题。跃迁轨迹是对真实生成路径的近似,近似程度有时好有时差。当一步跳跃的预测$\\hat{x}_{j|k}$与真实值$x_j$差异很大时,梯度信号的可靠性就大打折扣——这就好比在一张错误的地图上导航,即使走得认真,也可能越走越偏。

为此,LeapAlign引入了”轨迹相似度加权”机制,让那些与真实轨迹更接近的跃迁轨迹在训练中获得更大的权重,影响更大;而那些误差较大的跃迁轨迹则相应降权。

具体衡量方式是计算两个连接点处的预测误差:$d_j = \ext{mean}|x_j – \\hat{x}_{j|k}|$代表第一跃的误差,$d_0 = \ext{mean}|x_0 – \\hat{x}_{0|j}|$代表第二跃的误差。权重因子定义为$w_\ext{sim} = \\frac{1}{\\max(d_j, \au) + \\max(d_0, \au)}$,其中$\au = 0.1$是一个最小值截断,防止当两者误差都极小时权重无限大。最终的训练损失是加权损失:$\\mathcal{L} = \ext{stop\\_gradient}(w_\ext{sim}) \\cdot \\mathcal{L}_\ext{raw}$,权重本身不参与梯度计算,只是一个调节系数。

实验验证了这个设计的有效性:只考虑$d_j$处误差或只考虑$d_0$处误差都能带来提升,同时考虑两个连接点的误差效果最好。

六、训练目标:给满意的图像更高奖励,避免”作弊”

在确定如何传递梯度之后,还需要确定训练的优化目标——模型应该朝着什么方向调整。

LeapAlign采用了一个朴素而有效的”铰链式”损失函数:$\\mathcal{L}_\ext{raw} = \\max(0, \\lambda – r(x_0))$,其中$r(x_0)$是奖励模型对生成图像的打分,$\\lambda$是一个阈值参数。这个损失函数的含义很直观:只有当图像的奖励分数低于阈值$\\lambda$时,模型才会受到惩罚,驱动它提升质量;一旦超过阈值,损失归零,模型不再受到额外驱使。这种设计防止了所谓的”奖励作弊”——如果模型被要求无限制地提高奖励分,它可能会学会一些投机取巧的技巧,产生表面上分数很高但实际质量很差的图像,就像有些学生专门研究考试技巧而不是真正学好知识。

奖励评估使用的是完整生成的真实图像$x_0$,而非跃迁预测的近似图像$\\hat{x}_{0|j}$。这个选择看似微小,实则重要:近似图像可能包含各种伪影和模糊,奖励模型对它的评估不够可靠;而真实图像直接反映了完整生成流程的最终质量,给出的评分更准确,提供了更可靠的训练信号。

七、实验结果:全面超越竞争对手

研究团队对Flux(黑森林实验室开发的顶尖开源流匹配图像生成模型)进行了大量实验,涵盖两个核心任务:通用偏好对齐和组合对齐(即让生成图像精确匹配复杂文字描述中的物体数量、颜色、空间关系等)。

在通用偏好对齐任务中,LeapAlign使用HPSv2.1作为奖励模型,在HPDv2数据集的50,000条提示词上训练300次迭代,然后在400条测试提示词(每条生成4张,共1600张图)上评估。评估指标涵盖了多个独立的人类偏好评分系统:HPSv2.1、HPSv3、PickScore、ImageReward,以及UnifiedReward-Alignment(图文一致性)和UnifiedReward-IQ(图像整体质量)。

与策略梯度方法相比,LeapAlign的表现全面领先。DanceGRPO在HPSv2.1得分约0.345,MixGRPO(使用了三个奖励模型联合训练)达到0.369,而LeapAlign仅用单个奖励模型就达到了0.409,提升幅度相当显著。与直接梯度方法相比,ReFL约0.385,DRaFT-LV约0.386,DRTune约0.388,LeapAlign同样以0.409居首。在HPSv3等域外评估指标上,LeapAlign同样保持领先,说明它不是单纯地”拟合”训练用的奖励模型,而是真正提升了图像质量。

在组合对齐任务中,优势更为突出。GenEval基准测试包含六类任务:单物体生成、双物体生成、计数、颜色、空间位置和属性绑定。原始Flux模型的整体得分为0.654。经过训练后,MixGRPO达到0.723,DRTune达到0.710,而LeapAlign达到0.742,在”位置”(从19.5%提升到30.25%)、”属性绑定”(从45.25%提升到66%)、”颜色”(从74.47%提升到80.59%)等难度较高的任务上提升最为明显。这些任务恰恰是需要模型在生成早期就建立正确的空间布局和语义结构的,LeapAlign能够更新早期步骤的优势在此得到了充分体现。

训练曲线的对比同样说明问题。在相同的迭代次数内,LeapAlign的奖励分数上升速度明显快于DRTune,最终达到的高度也更高,说明它的训练效率更高。

质性结果方面,对于像”一张有一匹马和一列火车的照片”或”一张长椅在熊左边的照片”这样需要精确空间关系的提示,ReFL和DRaFT-LV生成的图像布局与原始Flux模型差别不大,因为它们只更新了晚期步骤;而LeapAlign生成的图像则能显著调整全局构图,让物体的数量、位置、颜色都准确对应文字描述。

在不同奖励模型和不同数据集上的泛化实验(使用PickScore在HPDv2上训练,或用HPSv3在MJHQ-30k上训练)也证实了LeapAlign的一致优越性。此外,将LeapAlign应用于另一个流匹配模型Stable Diffusion 3.5 Medium同样取得了最优结果,证明这套方法不是为Flux专门定制的,而是具有通用性的。

八、深入剖析:每个设计选择的价值

研究团队对LeapAlign的每个核心设计进行了独立的消融实验,验证其必要性。

关于梯度折扣因子$\\alpha$的选择,实验显示$\\alpha=0$(完全去除嵌套梯度,等同于DRTune策略)得到HPSv2.1分数0.406,$\\alpha=1$(完全保留嵌套梯度,无折扣)得到0.405,而$\\alpha=0.3$得到0.409,是三者中最优的。这证明嵌套梯度有其价值(保留比去除好),但需要控制幅度(折扣比完全保留好)。值得注意的是,即使在$\\alpha=0$的情况下(退化为只有单步梯度,类似DRTune),LeapAlign的0.406仍然高于DRTune的0.388,说明性能提升不只来自嵌套梯度,跃迁轨迹的设计本身也有独立贡献。

关于跃迁步数的选择,研究团队比较了使用一步、两步和三步跃迁轨迹的效果。一步版本得分0.403,两步版本得分0.409,三步版本得分0.408,但内存消耗更高(约是两步版本的1.05倍)。两步版本在性能和内存消耗之间达到了最佳平衡点,且一步版本虽然不如两步版本,但仍然超越了DRTune(0.388)和ReFL(0.385),再次证明LeapAlign的其他设计(真实图像奖励评估、轨迹相似度加权)的独立贡献。

关于奖励评估输入的选择,直接使用真实的$x_0$得分0.409,使用跃迁预测的$\\hat{x}_{0|j}$加上$d_0$的相似度加权得0.407,直接使用$\\hat{x}_{0|j}$则跌至0.404。真实图像作为奖励输入效果最好,印证了研究团队关于”近似图像的奖励评估可靠性不足”的判断。

关于训练时间步范围的影响,将k和j限制在后半段生成轨迹(范围[0, 1/2])的GenEval分数为0.711,而在整个轨迹范围([0, 1],1代表最早的纯噪声步)内随机选取则达到0.742。这清楚地表明,能够更新早期生成步骤对于组合对齐任务至关重要,而LeapAlign的随机选择策略正好充分利用了这一点。

关于k和j的选择策略,随机选择(0.409)略优于固定k和j之间距离为1/2的策略(0.408),差距虽小但证明随机性有其合理性,同时随机选择实现更简单,因此作为最终设计。

损失阈值$\\lambda$的选择也经过了仔细验证。$\\lambda=0.35$时模型优化不足(HPSv2.1为0.386),$\\lambda=0.55$时表现最佳(0.409),$\\lambda=0.75$时域内分数相近(0.409)但域外ImageReward有所下降(1.484 vs 1.510),$\\lambda=0.95$时性能全面下滑(0.402)。最终选定$\\lambda=0.55$,这个值在优化力度和泛化能力之间取得了最佳平衡。

说到底,LeapAlign的成功不是某一个单一设计的功劳,而是跃迁轨迹构建、梯度折扣、真实图像奖励评估和轨迹相似度加权四个模块协同作用的结果。每个模块都有其独立价值,叠加在一起产生了超过各部分之和的整体效果。

归根结底,这项研究解决的问题可以用一句话概括:之前的AI图像训练方法就像只能给厨师调整最后摆盘动作的反馈,而LeapAlign让反馈信号能够一路传回到食材选购阶段,从根本上改变了烹饪的方向。这种能力在复杂场景生成(多物体、精确颜色、空间关系)上的价值尤为突出,因为这类任务的关键恰恰在于那些”早期决策”。

对于普通用户来说,这意味着未来基于LeapAlign训练的图像生成应用,在处理”左边有一只棕色的猫,右边有一辆蓝色的自行车,背景是夕阳下的海滩”这类复杂描述时,会有更高的成功率,而不是生成一张大概对味但细节错误的图片。

当然,LeapAlign目前还有其局限:它需要可微分的奖励模型,那些依靠人工评分或规则判断的非可微奖励还无法直接使用。研究团队也坦言,将LeapAlign扩展到视频生成领域是下一步的工作方向,因为视频的生成时间更长、每一帧的早期决策影响更大,LeapAlign的设计思路在那里可能同样甚至更有价值。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.15311获取完整论文,其中包含了完整的数学推导、算法伪代码和更多实验结果。

Q&A

Q1:LeapAlign和之前的DRTune、ReFL这些方法有什么本质区别?

A:LeapAlign最大的区别在于能够有效更新图像生成的早期步骤。DRTune虽然也能更新早期步骤,但它通过截断嵌套梯度来防止爆炸,丢失了跨步骤的交互信息;ReFL和DRaFT-LV则只能更新接近最终图像的晚期步骤。LeapAlign用两步跃迁轨迹直接连接任意两个时间点,配合梯度折扣保留了嵌套梯度的部分价值,同时加入轨迹相似度加权来筛选可靠的训练信号,四个设计共同作用使得早期步骤的有效更新成为可能。

Q2:LeapAlign训练出来的Flux模型,在生成复杂场景图片时提升有多大?

A:以GenEval基准测试为例,原始Flux模型整体得分约0.654。经过LeapAlign训练后达到0.742,提升幅度明显。其中提升最显著的是空间位置(从19.5%到30.25%)和属性绑定(从45.25%到66%)这两类任务,也就是说模型更能准确理解”左边””右边””红色的””方形的”这类修饰关系,而不是大致生成一堆物体就算完成任务。

Q3:LeapAlign只能用于特定的奖励模型吗?

A:LeapAlign的要求是奖励模型必须是可微分的,即能够计算梯度。研究团队已经用HPSv2.1(基于CLIP的奖励)、PickScore(同样基于CLIP)和HPSv3(基于视觉语言模型的奖励)分别验证了有效性,三种风格不同的奖励模型都能配合LeapAlign取得最佳结果。目前无法直接支持的是人工打分、规则判断这类不可微分的奖励,对此研究团队提出了未来通过可微分价值模型作为中间桥梁来扩展的方向。

© 版权声明

相关文章