开源之光 Stable Diffusion 3 技能论文全解:公式占一半,实行很充实!

[复制链接]
发表于 2026-2-8 17:04:54 | 显示全部楼层 |阅读模式

文章链接:https://arxiv.org/pdf/2403.03206
扩散模子通过反转数据到噪声的正向路径来从噪声中创建数据,并已成为处置惩罚高维感知数据(如图像和视频)的强大天生建模技能。Rectified flow是一种迩来提出的天生模子情势,它将数据和噪声毗连在一条直线上。只管其具有更好的理论性子和概念上的简朴性,但它尚未被明白确定为尺度实践。



在这项工作中,本文改进了现有的噪声采样技能,用于练习Rectified flow模子,通过使它们方向感知相干的尺度。通过一项大规模研究,本文证明白这种方法相对于已创建的扩散情势在高分辨率文本到图像合成方面的良好性能
别的,本文提出了一种基于Transformer的文本到图像天生架构,该架构为两种模态使用单独的权重,并实现了图像和文本tokens之间信息的双向运动,进步了文本明白本领、样式和人类偏好评分。实行证明,该架构遵照可猜测的扩展趋势,而且较低的验证丧失与根据各种指标和人类评价衡量的改进的文本到图像合成呈相干性。我们的最大模子赛过了现有的开始辈模子,后续将公开我们的实行数据、代码和模子权重。



先容

扩散模子通过噪声创建数据。它们被练习来反转数据向随机噪声的正向路径,因此,团结神经网络的近似和泛化性子,可以用来天生不在练习数据中但遵照练习数据分布的新数据点。这种天生建模技能已被证明在建模高维感知数据,如图像方面非常有效。
比年来,扩散模子已成为从自然语言输入天生高分辨率图像和视频的究竟尺度方法,具有令人印象深刻的泛化本领。由于它们的迭代性子及相干的盘算本钱,以及推理期间的长时间采样,对这些模子举行更有效的练习和/或更快速的采样的研究已经增长。固然指定从数据到噪声的正向路径可以导致高效的练习,但也引发了选择哪个路径的标题。
这个选择对采样大概有紧张影响。比方,一个不能从数据中移除全部噪声的正向过程大概导致练习和测试分布的差异等,并导致灰色图像样本等伪影。紧张的是,正向过程的选择也影响了学习的反向过程,从而影响了采样服从。固然曲线路径须要很多积分步调来模仿过程,但直线路径可以通过单个步调模仿,而且不太容易出现毛病积聚。由于每个步调对应于神经网络的评估,这直接影响了采样速率。
一种特定的正向路径选择是所谓的Rectified flow,它将数据和噪声毗连在一条直线上。只管这种模子类具有更好的理论性子,但它尚未在实践中被明白创建。
到如今为止,一些优点已经在小型和中型实行中履历性地证明白,但这些紧张范围于类条件模子。在这项工作中,通过引入对Rectified flow模子中噪声尺度的重新加权,雷同于噪声猜测性扩散模子,改变了这一点。通过一项大规模研究,将我们的新公式与现有的扩散公式举行比力,并展示其上风。
这里展示了文本到图像合成的广泛应用方法,此中一个固定的文本表现直接输入模子(比方,通过交错注意力),但并不抱负,并提出了一种新的架构,该架构为图像和文本tokens都提供可学习的流,从而实现它们之间的双向信息流。将此与我们改进的Rectified flow公式相团结,并观察其可扩展性。展示了验证丧失中的可猜测的缩放趋势,并展示了较低的验证丧失与改进的主动评估和人类评估之间的强相干性。
这里最大模子在量化评估和人类偏好评分方面均优于诸如SDXL、SDXL-Turbo、Pixart-α等现有开放模子以及诸如DALL-E 3等闭源模子。
本工作的焦点贡献是:

  •         对差异扩散模子和Rectified flow公式举行了大规模体系研究,以确定最佳设置。为此引入了新的噪声采样器,用于改进Rectified flow模子的性能,高出先前已知的采样器。
  •         计划了一种新奇的、可扩展的文本到图像合成架构,答应网络内部文本和图像tokens流之间的双向肴杂。展示了它与已创建的主干结构(如UViT)和DiT)相比的上风。
  •         对我们的模子举行了扩展性研究,并展示它遵照可猜测的缩放趋势。展示了较低的验证丧失与改进的文本到图像性能(通过T2I-CompBench、GenEval和人类评分等指标举行评估)之间的强相干性。尚有将结果、代码和模子权重公开可用。
不须要模仿的流练习

思量的天生模子通过平凡微分方程(ODE)界说了从噪声分布的样本到数据分布的样本之间的映射。


速率v由神经网络的权重Θ参数化。陈等人(2018年)的先前工作发起通过可微分的ODE求解器直接办理方程(1)。然而,这个过程在盘算上是昂贵的,特殊是对于参数化的大型网络结构而言。一个更有效的更换方案是直接回归天生和之间的概率路径的矢量场。为了构造如许的,我们界说一个正向过程,对应于和之间的概率路径,如下所示:


当 = 1, = 0, = 0, = 1时,边沿分布


边沿分布与数据和噪声分布划一。
为了表达、和ε之间的关系,引入和,如下所示:


由于可以被写成ODE 的解,此中初始值为天生。值得注意的是,可以构造一个边沿矢量场,它天生边沿概率路径,使用条件矢量场(·|ε)。


通过Flow Matching目的对举行回归


由于方程6中的边沿化,直接举行的回归是棘手的。


使用条件矢量场提供了一个等价但易于处置惩罚的目的。
为了将丧失转换为明白的情势,我们在(5)中插入和。


如今,思量信噪比。由,可以重写方程(9)为


接下来,使用方程(10)重新参数化方程(8)作为噪声猜测目的:


在这里,界说了。
须要注意的是,上述目的的最优解在引入时间相干的加权时并不改变。因此,可以推导出各种加权丧失函数,这些函数提供了通向盼望办理方案的信号,但大概会影响优化轨迹。为了同一分析差异方法,包罗经典的扩散公式,可以将目的写成以下情势:


此中 对应于。
Flow 轨迹

在这项工作中,我们思量了上述情势主义的差异变体,以下扼要形貌。
Rectified flow Rectified flow(RFs)将正向过程界说为数据分布和尺度正态分布之间的直线路径,即


并使用,这对应于。 网络输出直接参数化速率。
EDM EDM使用情势为


此中的,此中是具有均值和方差的正态分布的分位数函数。请注意,这种选择的结果是:


网络通过F-猜测(Kingma & Gao, 2023; Karras等人,2022年)举行参数化,而且丧失可以写成,此中


Cosine(Nichol & Dhariwal, 2021)提出了以下情势的正向过程:


团结ε参数化和丧失,这对应于一个加权。当与v-猜测丧失团结时,加权项由给出。
线性扩散模子(LDM-Linear LDM)使用了DDPM调治的修改版。两者都是保持方差的调治,即,而且通过扩散系数来界说离散时间步t = 0,...,T−1时的,如下所示:。对于给定的界限值和,DDPM使用,而LDM使用。
为RF模子定制的信噪比采样器

RF丧失在[0,1]的所偶尔间步上匀称练习速率vΘ。然而直观地,由此得到的速率猜测目的ε − 对于[0,1]中心的t更加困难,由于对于t = 0,最优猜测是的均值,而对于t = 1,最优猜测是的均值。一样平常来说,将t上的分布从常用的匀称分布U(t)改变为密度为π(t)的分布相称于使用加权丧失


因此,我们的目的是通过更频仍地对中心时间步举行采样,使其得到更多的权重。接下来,形貌我们用于练习模子的时间步密度π(t)。对数正态采样 将更多的权重放在中心步调上的分布之一是对数正态分布。其密度:


此中logit(t) = ,具有位置参数m和尺度参数s。位置参数使我们可以或许方向于练习时间步,要么朝向数据(负m),要么朝向噪声(正m)。如图11所示,尺度参数控制分布的宽度。在实践中,我们从正态分布u ∼ N(u; m,s)中采样随机变量u,并通过尺度逻辑函数映射它。


具有重尾的模式采样 对数正态密度总是在端点0和1处消散。为了研究这是否对性能产生倒霉影响,我们还使用具有严酷正密度的时间步采样分布[0,1]。对于尺度参数s,界说


对于−1 ≤ s ≤ 2π−2,这个函数是单调的,而且可以使用它来从隐含的密度中采样。如前面图11所示,尺度参数控制着在采样过程中中点(正s)或端点(负s)受到偏好的程度。这种公式还包罗一个匀称加权(t; s = 0) = U(t)对于s = 0,在前述Rectified flow(RF)的先前工作中被广泛使用。
CosMap 末了,还思量了余弦调治在RF设置中的使用。特殊是,正在探求一个映射f:u 7→f(u) = t,u ∈[0,1],使得log-snr与余弦调治的匹配:。解出f,得到对于u ∼U(u)


从中得到密度

文本到图像架构

对于图像的文本条件采样,我们的模子必须同时思量文本和图像这两种模态。使用预练习模子来导出符合的表现,并形貌我们扩散主干的架构。这个概述如下图2所示。


我们的一样平常设置遵照LDM的做法,用预练习自编码器的埋伏空间来练习文本到图像模子。雷同于将图像编码为埋伏表现的方式,还遵照了先前的方法,使用预练习的、冻结的文本模子对文本条件c举行编码。
多模态扩散主干 我们的架构创建在DiT架构的根本上。DiT仅思量类条件图像天生,并使用调制机制在扩散过程的时间步和类标签上对网络举行条件建模。雷同地,使用时间步t和的embedding作为调制机制的输入。然而,由于汇聚的文本表现仅保存了关于文本输入的粗粒度信息,网络还须要来自序列表现的信息。
我们构建了一个由文本和图像输入的embedding序列。具体来说,添加了位置编码,并将埋伏像素表现的2×2patch展平为长度为1/2·h·1/2·w的patch编码序列。在将这个patch编码和文本编码embedding到一个公共维度后,我们将这两个序列毗连起来。然后,我们按照DiT的方法应用一系列调制注意力和MLP。由于文本和图像的embedding在概念上优劣常差异的,我们为两种模态使用了两组独立的权重。如前面图2b所示,这相称于为每个模态使用两个独立的transformer,但将两种模态的序列毗连起来举行注意力操纵,以便两种表现都可以在自己的空间中工作,同时思量另一种模态。
对于规模实行,通过设置埋伏巨细为64·d(在MLP块中扩展为4·64·d通道),并将注意头的数量设置为d,来将模子的规模参数化为模子的深度d,即注意块的数量。
实行

改进Rectified flow

我们的目的是相识方程1中无需模仿练习的归一化流方法中哪种方法是最有效的。为了可以或许跨差异方法举行比力,控制了优化算法、模子架构、数据集和采样器。别的,差异方法的丧失是无法比力的,也不肯定与输出样本的质量相干;因此须要可以或许比力各种方法的评估指标。我们在ImageNet和CC12M上练习模子,并使用验证丧失、CLIP分数和FID在差异的采样器设置(差异的引导尺度和采样步调)下评估模子的练习和EMA权重。按照(Sauer等人,2021年)的发起,使用COCO-2014验证集上的CLIP特性盘算FID。
结果

在这两个数据集上练习了61种差异的配方。

  •         具有线性(eps/linear, v/linear)和余弦(eps/cos, v/cos)调治的ε-和v-猜测丧失。
  •         具有的RF丧失,此中s在-1和1.75之间匀称选择了7个值,并额外思量了s = 1.0和s = 0,这对应于匀称时间步采样(rf/mode)。
  •         具有的RF丧失,此中(m, s)在m匀称分布在-1和1之间,s匀称分布在0.2和2.2之间的网格中有30个值。
  •         具有的RF丧失。
  •         EDM(edm(,)),此中在-1.2和1.2之间匀称选择了15个值,Ps在0.6和1.8之间匀称选择。注意, = (-1.2,1.2)对应于(Karras等人,2022年)中的参数。
  •         具有与rf的对数SNR加权匹配的操持的EDM(edm/rf)和与v/cos的对数SNR加权匹配的操持的EDM(edm/cos)。
对于每次运行,选择在使用EMA权重举行评估时具有最小验证丧失的步调,然后网络使用6种差异采样器设置以及有或无EMA权重时得到的CLIP分数和FID。
对于全部24种采样器设置、EMA权重和数据集选择的组合,使用非支配排序算法对差异的配方举行排名。为此,重复盘算根据CLIP和FID分数是帕累托最优的变体,将这些变体分配给当前迭代索引,删除这些变体,然后继续处置惩罚别的变体,直到全部变体都被排名。末了,将这些排名匀称化得到24个差异控制设置的结果。
下表1中出现结果,此中仅表现了使用差异超参数举行评估的两种性能最佳的变体。


我们还展示了在限定采样器设置为5步和50步时的排名。观察到rf/lognorm(0.00, 1.00)始终得到很好的排名。它优于具有匀称时间步采样(rf)的Rectified flow情势,从而证明了我们的假设,即中心时间步调更紧张。在全部变体中,只有具有修改的时间步采样的Rectified flow情势的表现优于先前使用的LDM-Linear配方(eps/linear)。
还观察到,一些变体在某些设置中表现良好,但在其他设置中表现较差,比方,rf/lognorm(0.50, 0.60)是具有50个采样步调的表现最佳的变体,但在具有5个采样步调的情况下要差得多(匀称排名为8.5)。
在下表2中,观察到了与两个指标相干的雷同举动。


第一组表现了代表性变体及其在两个数据集上具有25个采样步调时的指标。接下来的组表现了到达最佳CLIP和FID分数的变体。除了rf/mode(1.75)外,这些变体通常在一个指标上表现非常好,但在另一个指标上相对较差。相比之下,我们再次观察到rf/lognorm(0.00, 1.00)在各种指标和数据集上均表现良好,在四次测试中两次得到第三好的分数,一次得到第二好的表现。
末了,在下图3中展示了差异配方的定性举动,此中我们使用差异颜色表现差异配方组(edm、rf、eps和v)。Rectified flow配方通常表现良好,而且与其他配方相比,在淘汰采样步调数量时,它们的性能降落较少。


改进模态特定表现

在上一节中找到答应Rectified flow模子不但与已创建的扩散配方(如LDM-Linear或EDM)竞争,以致赛过它们的配方后,如今转向我们的配方应用于高分辨率文本到图像合成。因此,我们算法的终极性能不但取决于练习配方,还取决于通过神经网络的参数化以及使用的图像和文本表现的质量。
改进的自编码器

埋伏扩散模子通过在预练习自编码器的埋伏空间中操纵实现了高服从,该自编码器将输入RGB X ∈ 映射到低维空间x = E(X) ∈ 。该自编码器的重修质量为埋伏扩散练习后可实现的图像质量提供了一个上限。与Dai等人雷同,我们发现增长埋伏通道数d明显进步了重修性能,见下表3。


直观地说,猜测具有更高d的埋伏变量是一项更困难的任务,因此具有增长容量的模子应该可以或许在较大的d上表现更好,终极实现更高的图像质量。在下图10中,证明了这一假设,可以看到d = 16的自编码器在样本FID方面显现出更好的扩展性能。因此,在本文的别的部门,我们选择d = 16。


改进的标题

Betker等人表明,合整天生的标题可以极大地改善规模练习的文本到图像模子。这是由于通常情况下,大规模图像数据集附带的人工天生的标题每每过于关注图像主题,通常省略形貌配景或场景构成的细节,大概假如实用的话,表现的文本。
我们遵照他们的方法,并使用一个现成的、开始辈的视觉语言模子,CogVLM,为我们的大规模图像数据集创建合成解释。由于合成标题大概导致文本到图像模子忘记某些不在VLM知识语料库中的概念,使用50%原始标题和50%合成标题的比率。
为了评估在这种标题肴杂情况下的练习结果,对两个d = 15的MM-DiT模子举行了250k步的练习,一个仅使用原始标题,另一个使用50/50肴杂。我们使用GenEval基准评估练习好的模子,见下表4。


结果表明,使用合成标题的模子显着优于仅使用原始标题的模子。因此,在本工作的别的部门,我们使用50/50的合成/原始标题肴杂。
改进的文本到图像主干网络

将现有基于Transformer的扩散主干网络的性能与我们的新型多模态基于Transformer的扩散主干网络MM-DiT举行比力。MM-DiT专门计划用于处置惩罚差异的范畴,这里是文本和图像 tokens ,使用(两个)差异的可练习模子权重集。更具体地说,我们遵照前面的实行设置,并在CC12M上比力DiT、CrossDiT(DiT但对文本 tokens 举行交错注意而不是序列级别的串联)和我们的MM-DiT的文本到图像性能。对于MM-DiT,我们比力了具有两组权重和三组权重的模子,后者单独处置惩罚CLIP和T5 tokens 。请注意,DiT(在第4节中对文本和图像 tokens 举行串联)可以被表明为MM-DiT的一种特殊情况,其对全部模态共享一组权重。
末了,将UViT架构视为广泛使用的UNets和Transformer变体之间的肴杂体。在下图4中分析了这些架构的收敛举动:平凡的DiT性能低于UViT。交错注意力DiT变体CrossDiT的表现优于UViT,只管UViT好像最初学习速率更快。MM-DiT变体显着优于交错注意力和平凡变体。当使用三组参数集而不是两组时,我们观察到的收益很小(代价是增长的参数数量和VRAM使用),因此在本文的别的部门选择前者选项。


练习缩放

在增大比例之前,对数据举行筛选和预编码,以确保安全和有效的预练习。然后,在扩散情势、架构和数据的全部先前思量都汇总,我们将模子扩展到8B参数。
数据预处置惩罚

预练习缓解 练习数据对天生模子本领的显着影响。因此,在规模化练习之前,对数据举行以下分类的筛选:

  •         色情内容:我们使用NSFW检测模子来筛选显式内容。
  •         美学:删除我们评分体系猜测得分低的图像。
  •         回溯:使用基于聚类的去重方法从练习数据中删除感知和语义重复项;。
预盘算图像和文本embedding 我们的模子使用多个预练习、冻结的网络的输出作为输入(主动编码器的潜变量和文本编码器的表现)。由于这些输出在练习期间是恒定的,为整个数据集预先盘算它们一次。
在高分辨率上微调

QK-Normalization 通常情况下,将全部模子预先练习在2562像素巨细的低分辨率图像上。接下来,在更高分辨率上对模子举行微调,使用肴杂长宽比。
我们发现,当转移到高分辨率时,肴杂精度练习大概会变得不稳固,而且丧失会发散。这可以通过切换到全精度练习来办理,但与肴杂精度练习相比,性能会降落约2倍。一个更有效的更换方法在(辨别性)ViT文献中有报道:Dehghani等人观察到,大型视觉Transformer模子的练习会发散,由于注意力熵无法控制地增长。为了克制这种情况,Dehghani等人发起在实行注意力操纵之前对Q和K举行归一化。我们采取了这种方法,在MMDiT架构的两个流中使用可学习缩放的RMSNorm举行QK归一化,如下图2所示。


下图5所示,额外的归一化防止了注意力logit增长不稳固性,证明了Dehghani等人的研究结果,而且在与AdamW优化器中使用时,使得在bf16-mixed精度下举行有效练习。该技能也可以应用于在预练习期间未使用qk-归一化的预练习模子:模子很快顺应了额外的归一化层,而且练习更加稳固。末了,我们想指出,固然这种方法通常有助于稳固大型模子的练习,但它并非万能的办理方案,大概须要根据确切的练习设置举行调解。


变革长宽比的位置编码 在固定的256×256分辨率上练习后,我们的目的是

  •         增长分辨率和分辨率
  •         使推理具有机动的长宽比成为大概。 由于使用2D位置频率embedding,我们必须根据分辨率举行调解。在多长宽比设置中,直接插值embedding(不会准确反映边长。相反,我们使用扩展和插值的位置网格的组合,然后对其举行频率embedded。
对于目的分辨率为像素,使用分桶采样,使每个批次包罗尺寸匀称的图像H×W,此中H·W≈S2。对于最大和最小的练习长宽比,这导致了宽度的最大值和高度的最大值。让,,s = S/16是latent空间中(因子8)在修补后(因子2)的相应尺寸。基于这些值,构造了一个垂直位置网格,其值为,相应地对程度位置举行。然后,我们从天生的位置2D网格中举行中心裁剪,然后对其举行embedding。
分辨率相干的时间步调调解直觉上,由于更高的分辨率具有更多的像素,须要更多的噪声来粉碎它们的信号。假设在具有n = H·W像素的分辨率下工作。如今,思量一个“常数”图像,即每个像素都具有值c。正向过程产生,此中1和ε ∈。因此,提供了关于随机变量Y = (1−t)c + tη的n个观测值,此中c和η在R中,η遵照尺度正态分布。
因此,E(Y) = (1−t)c和σ(Y)=t。因此,可以通过 E(Y)来规复c,而且c与其样本估计值,i之间的毛病具有尺度差(由于Y的均值的尺度毛病为)。
因此,假如已经知道图像z0在其像素之间是恒定的,则σ(t,n)代表关于z0的不确定性程度。比方,立即看到将宽度和高度更加会导致在任何给定时间0 < t < 1时不确定性减半。但是,如今可以通过假设σ(,n) = σ(,m)将分辨率n上的时间步调tn映射到分辨率m上产生雷同程度的不确定性的时间步调。求解得到


在下图6中可视化了这个移位函数。请注意,恒定图像的假设并不实际。为了在推理过程中找到符合的移位值,在分辨率为1024×1024的模子上应用它们到采样步调,并举行人类偏好研究。下图6中的结果表现,样本的偏移值大于1.5有很强的偏好,但在较高的偏移值之间差异不太显着。因此,在分辨率为1024×1024时,在练习和采样中都使用α = 3.0的移位值。


可以在图6中找到颠末8k练习步调的样本的定性比力,带有和不带有如许的偏移。末了,注意方程式23暗示了雷同于(Hoogeboom等人,2023)的log n/m的对数-SNR偏移。

在下图8中,研究了将MM-DiT举行规模化练习的结果。对于图像,我们举行了大规模的缩放研究,并在256×256像素的分辨率上使用预编码数据,在批量巨细为4096的情况下,对模子举行了500k步的练习。


在2×2的patch上举行练习,并在每50k步陈诉一次CoCo数据集的验证丧失。特殊地,为了淘汰验证丧失信号中的噪声,在t ∈ (0,1)中等隔断地采样丧失程度,并分别盘算每个程度的验证丧失。然后,将除了末了一个(t = 1)程度之外的全部丧失匀称起来。
同样,我们对视频上的MM-DiT举行了开端的规模化研究。为此,从预练习的图像权重开始,并额外使用了2倍的时间patch。遵照Blattmann等人的做法,通过将时间归并到批处置惩罚轴中,将数据馈送到预练习模子中。在每个注意层中,重新分列视觉流中的表现,并在终极前馈层之前的空间注意操纵后添加了一个对所偶尔空tokens的全注意力。
我们的视频模子在包罗16帧,分辨率为256×256像素的视频上举行了140k步的练习,batch巨细为512。每5k步陈诉一次Kinetics数据集上的验证丧失。请注意,在前面图8中陈诉的视频练习的FLOP仅来自视频练习,不包罗图像预练习的FLOP。
在图像和视频范畴,当增长模子巨细和练习步调时,观察到验证丧失安稳降落。发现验证丧失与综合评估指标(Comp-Bench 、GenEval)和人类偏好高度相干。这些结果支持验证丧失作为模子性能的简朴和通用的衡量尺度。我们的结果既不表现图像模子的饱和,也不表现视频模子的饱和。
下图12阐明白练习更大的模子更长时间怎样影响样本质量。表5表现了GenEval的全部结果。当应用提出的方法并增长练习图像分辨率时,我们的最大模子在大多数种别上表现精彩,并在团体得分上优于DALLE 3 ,即当前开始辈的提示明白技能。




我们的d = 38模子在Parti-prompts基准测试的视觉美学、提示跟随和样式天生等种别的人类偏好评估中优于当前的专有和开放SOTA天生图像模子,拜见下图7。


对于评估这些种别的人类偏好,评分者被展示了两个模子的成对输出,并被要求答复以下标题:
提示跟随: 哪个图像看起来更符合上面表现的文本并老实地跟随它?
视觉美学: 给定提示,哪个图像更高质量、更雅观?
样式: 哪个图像更准确地表现了上述形貌中指定的文本?更准确的拼写更受欢迎!忽略其他方面。
末了,下表6突显了一个风趣的结果:更大的模子不但表现更好,而且须要的步调更少才气到达它们的顶峰性能。


机动的文本编码器固然紧张动机是提拔团体模子性能,但我们如今展示这种选择额外增长了基于MM-DiT的 Rectified flow 在推理过程中的机动性。正如附录B.3所述,使用三个文本编码器练习我们的模子,每个编码器的个体dropout率为46.3%。
因此,在推理时,可以使用全部三个文本编码器的恣意子集。这提供了一种衡量模子性能以变更改进的内存服从的本领,这对于须要大量VRAM的T5-XXL的47亿参数尤其紧张。
风趣的是,当仅使用两个基于CLIP的文本编码器用于文本提示,并用零更换T5 embedding时,观察到的性能降落有限。在下图9中提供了定性可视化。只有在涉及高度具体的场景形貌或更多文本内容的复杂提示时,我们才发现当使用全部三个文本编码器时性能明显提拔。这些观察结果也在图7中的人类偏好评估结果中得到验证(去除T5后的我们)。去除T5对美学质量评级没有影响(50%胜率),对提示符的遵照只有小小的影响(46%胜率),而对天生书面文本本领的贡献则更为明显(38%胜率)。


在这项工作中,对文本到图像合成的Rectified flow模子举行了规模分析。提出了一种新的 Rectified flow 练习的时间步采样方法,该方法改进了从前的扩散练习配方,实用于埋伏扩散模子,并保存了 Rectified flow 在少步采样阶段的有利特性。还展示了我们基于Transformer的多模态MM-DiT架构的上风,该架构思量了文本到图像任务的多模态性子。末了,对这种组合举行了扩展研究,将模子巨细扩展到8B参数和5 ×1022个练习FLOP。
我们展示了验证丧失的改进与现有的文本到图像基准以及人类偏好评估之间的相干性。这与我们在天生建模和可扩展的多模态架构方面的改进相团结,使性能到达了与开始辈的专有模子相竞争的程度。扩展趋势没有表现出饱和的迹象,这让我们对将来继续进步模子性能感到乐观。








参考文献

[1] Scaling Rectified Flow Transformers for High-Resolution Image Synthesis


欢迎加群交换AIGC技能,添加小助手


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表