【论文+中文文生图】Kolors:快手可图绘画模子实测(24.07.06开源)
代码:https://github.com/Kwai-Kolors/Kolors | 权重论文原文:Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis
快手在线利用平台:https://kolors.kuaishou.com/
comfyui推理:https://github.com/kijai/ComfyUI-KwaiKolorsWrapper
一、Kolors简介 (=U-net + chatGLM3文本编码 + CogVLM打标 + 数十亿图像文本对预训练+数百万高质量图片微调)
Kolors(2.6B模子参数),这是一种基于SDXL的 U-Net 架构的埋伏扩散模子(latent diffusion model),通过中英文模子chatGLM3 (General Language Model, GLM)文本编码。训练时由多模态 CogVLM 生成的细粒度文本标题。Kolors 在理解复杂语义方面体现精彩,特别是涉及多个实体时,并展示了卓越的文本渲染能力。(其中chatGLM 支持256token, 而sdxl是77)
Kolors 通过两个差别的阶段进行训练:
1.概念学习阶段:包含数十亿图像-文本对的大规模数据会集获取全面的知识和概念。该阶段的数据来源于公共数据集(如 LAION DataComp,JourneyDB 以及专有数据集。
2. 质量改进阶段:数百万张呆板+人工挑选。
Kolors 生成的高质量样本展示了它在英文和中文文本渲染、精确提示依从性、过细的细节渲染以及在广泛的风格和分辨率下优越的图像质量方面的精彩能力
https://i-blog.csdnimg.cn/direct/70a8396b326c44eeb2d4946fd2ce0f42.png
官方支持的风格
https://i-blog.csdnimg.cn/direct/b86bc1cf5c6e401c9f27e7da77a43c77.png
comfyui实测 (3090ti约20秒)
https://i-blog.csdnimg.cn/direct/fe0707341440470096ed505a549f52d7.png
二、部分论文原文
择要
介绍了 Kolors,一种用于文本生成图像(text-to-image synthesis)的埋伏扩散模子(latent diffusion model),其特点是对英语和中文的深刻理解以及令人印象深刻的逼真度。Kolors 的开发有三个关键看法。首先,差别于 Imagen 和 Stable Diffusion 3 中利用的大型语言模子 T5,Kolors 创建在通用语言模子(General Language Model,GLM)之上,增强了其对英语和中文的理解能力。此外,我们接纳多模态大型语言模子(multimodal large language model)对广泛的训练数据集进行重新描述,以便细化文本理解。这些策略显著提高了 Kolors 理解复杂语义的能力,特别是涉及多个实体时,并使其具备先进的文本渲染能力。
其次,我们将 Kolors 的训练分为两个阶段:知识广泛的概念学习阶段和利用精心筹谋的高美学数据进行的质量改进阶段。此外,我们探讨了噪声调度(noise schedule)的关键作用,并引入了一种新的调度方法以优化高分辨率图像生成。这些策略共同提高了生成的高分辨率图像的视觉吸引力。
最后,我们提出了一个类别均衡的基准 KolorsPrompts,用于指导 Kolors 的训练和评估。效果表明,纵然利用常见的 U-Net 主干网络,Kolors 在人类评估中体现精彩,超越了现有的开源模子,并在视觉吸引力方面达到了 Midjourney-v6 的水平。我们将发布 Kolors 的代码和权重,盼望能为将来的视觉生成范畴的研究和应用带来益处。
1 引言
基于扩散的文本生成图像(T2I,text-to-image)生成模子已成为人工智能和盘算机视觉范畴的焦点。之前的方法,如 Stability AI 的 SDXL ,谷歌的 Imagen ,以及 Meta 的 Emu ,都是基于 U-Net 架构,在文本生成图像任务中取得了显著进展。最近,一些基于 Transformer 的模子,如 PixArt-α 和 Stable Diffusion 3 ,展示了前所未有的图像生成质量。然而,这些模子目前无法直接表明中文提示,从而限制了它们从中文文本生成图像的实用性。可以直接中文题词模子: 包括 AltDiffusion ,PAI-Diffusion ,Taiyi-XL 和 Hunyuan-DiT 。这些方法仍依赖于 CLIP 进行中文文本编码。然而,这些模子在中文文本遵循和图像美学质量方面仍有很大改进空间。
在本报告中,我们介绍了 Kolors,这是一种在埋伏空间中联合经典 U-Net 架构 和通用语言模子(GLM) 的扩散模子,用于文本生成图像。通过将 GLM 与多模态大型语言模子生成的细粒度标题相联合,Kolors 展现了对英语和中文的高级理解以及其卓越的文本渲染能力。由于精心筹划的两阶段训练策略,Kolors 展现了其精彩的逼真能力。在我们的 KolorsPrompts 基准上的人类评估证明,Kolors 在视觉吸引力方面体现精彩。我们将发布 Kolors 的代码和模子权重,旨在将其确立为主流的扩散模子。本文的重要贡献总结如下:
[*] 基于中国的大语言模子ChatGLM3-base对文本进行编码,语义理解能力增强:
特别是对多个物体(multiple entities)描述的语义
笔墨渲染(誊写的效果)
[*] Kolors 利用两阶段方法进行训练,其中包括概念学习阶段(concept learning phase)、利用广泛知识和质量改进阶段,利用精心筹谋的高美学数据(high aesthetic data)。此外,我们引入了一种新的调度(schedule)来优化高分辨率图像生成。这些策略有效地提高了生成的高分辨率图像的视觉吸引力(visual appeal)。
[*] 在雷同题词 KolorsPrompts、Kolors 的综合人工评估中,Kolors 都优于大多数开源和封闭源模子,包Stable Diffusion 3、DALL-E 3 和 Playground-v2.5,并展示了与 Midjourney-v6 相称的性能
2.方法
对于主干模子,我们严酷遵守(strictly adhere)**SDXL**中利用的U-Net结构
2.1 增强对文本理解正确性(中文+深层语意)(Faithfulness)
2.1.1 利用大语言模子作为文本编码器 (Text Encoder)
表1 经典的图像生成模子,所接纳的文本编码器
https://i-blog.csdnimg.cn/direct/4bae501218924745ba857673cfe4448e.png
CLIP 只支持77 个标志(token),由于 CLIP 中英文文本编码器的局限性,大多数文本到图像生成模子在中文提示方面遇到了困难。HunyuanDiT 通过利用双语 CLIP 和多语言 T5 编码器来生成中文文本到图像来办理这个题目。然而,中文文本训练语料库占多语言 T5 数据集的不到 2%,双语 CLIP 生成的文本嵌入仍然不足以处理复杂的文本提示。
为了办理这些限制,我们选择通用语言模子 (GLM) 作为 Kolors 中的文本编码器。GLM 是一种基于自回归空白添补目标的双语(英文和中文)预训练语言模子,在自然语言理解和生成任务中都显着优于 BERT 和 T5。我们假设预训练的 ChatGLM3-6B-Base 模子更适合文本表示,而经过人类偏好对齐训练的谈天模子 ChatGLM3-6B 在文本渲染方面体现精彩。
因此,在 Kolors 中,我们利用开源 ChatGLM3-6B-Base 作为文本编码器,该文本编码器经过超过 1.4 万亿双语标志的预训练,为中文语言理解提供了强大的能力。
我们直接将 ChatGLM3 的文本长度设置为 256,以进行具体的复杂文本理解。请注意,由于 ChatGLM3 的长文本处理能力,很容易支持长文本。和 SDXL 一样,ChatGLM3 模子的倒数第二层(penultimate)输出用于文本表示(text representation)。
2.1.2 利用多模态图文大模子对图片进行具体描述用于训练
Improved Detailed Caption with Multimodal Large Language Model
训练的文本图像对通常来源于互联网,随附的图像标题不可制止地带有噪声且不正确。DALL-E 3 通过利用专门的图像标题生成器重新描述训练数据集来办理这个题目。为增强 Kolors 的提示遵循能力,我们接纳与 DALL-E 3 类似的方法,利用多模态大型语言模子(MLLM)重新描述文本图像对。
发起一个尺度,并用5个具备中文输出能力的多模态模子,输出描述
LLaVA1.5 [ 22 ], CogAgent [ 14 ], and CogVLM,InternLM-XComposer-7B,以及GPT4-V,
然后人工打分在5个方面打分:
长度(Length): 对图像描述文本长度
完整性(Completeness):确保文本描述涵盖图像中的全部重要元素
相干性(Correlation):确保文本描述与图像内容高度相干
幻想(Hallucination):文本中提及但图像中不存在的细节或实体的比例
主观性(Subjectivity):文本偏离描述图像视觉内容而转达主观印象的水平
我们选择了五个知名的 MLLM 模子,并雇用了十名评估员评估 500 张图像。值得注意的是,LLaVA1.5 、CogAgent 和 CogVLM 支持中文文本。然而,我们发现生成的中文标题不如英文标题。因此,我们首先生成英文图像标题,然后将其翻译成中文。相比之下,我们直接利用 InternLM-XComposer-7B 和 GPT-4V 的中文提示。
五个模子的标题性能总结如表2所示。显然,GPT-4V 的性能最高。然而,利用 GPT-4V 处理数亿张图像的成本和时间消耗过高。在剩下的四个开源模子中,LLaVA1.5 和 InternLM-XComposer 在完整性和相干性方面显著逊色于 CogAgent-VQA 和 CogVLM-1.1-chat,表明具体描述的质量较低。此外,CogVLM-1.1-chat 生成的标题在幻想和主观性方面体现出较少的题目。基于这些评估,我们选择了最先进的视觉语言模子 CogVLM-1.1-chat 生成我们庞大训练数据集的合成具体标题。思量到 MLLM 可能无法辨认其知识库中不存在的图像中特定概念,我们接纳 50% 原始文本和 50% 合成标题的比例。这与 Stable Diffusion 3 的配置一致。
https://i-blog.csdnimg.cn/direct/21bc5696d3e94340adb67cd8b516934e.png
通过利用细粒度的合成标题,Kolors 展现了对复杂中文文本的强大遵循能力。如图2所示,我们展示了差别文本编码器在复杂提示上的 Kolors 效果。我们观察到,利用 GLM 的 Kolors 在多个主题和具体属性方面体现良好,而利用 CLIP 的 Kolors 未能生成顶部提示中的小贩和电话,而且在底部提示中存在颜色肴杂。
https://i-blog.csdnimg.cn/direct/085dc1b8a991463ea5f2246aaf550915.png
2.1.3 增强中文文本渲染能力
文本渲染一直是文本生成图像范畴的一个挑衅题目。先进方法如 DALL-E 3 和 Stable Diffusion 3 在渲染英文文本方面展示了优秀的能力。然而,当前模子在正确渲染中文文本方面遇到了显著挑衅。造成这些困难的根本缘故原由如下:
中笔墨符集庞大且这些字符的纹理复杂,使得渲染中文文本比英文更具挑衅性。
缺乏包含中文文本及相干图像的足够训练数据,导致模子训练和拟合能力不足。
为办理这个题目,我们从两个角度进行处理。首先,对于中文语料库,我们选择了 50,000 个最常用词,并通过数据合成构建了数千万对图像-文本对的训练数据集。为确保有效学习,这些合成数据仅在概念学习阶段利用。其次,为增强生成图像的逼真度,我们利用 OCR 和多模态语言模子为真实天下的图像(如海报和场景文本)生成新的描述,从而获得大约数百万个样本。
我们观察到,虽然训练数据会集初始的合成数据缺乏真实感,但在将真实数据和高质量文本图像纳入训练过程后,生成的文本图像的真实感显著提高。纵然某些字符仅在合成数据中出现,这种增强也很明显。更多可视化示例见图3。
通过体系性地通过集成合成和真实天下数据办理训练数据的局限性,我们的方法显著提升了中文文本渲染的质量,为中文文本图像生成的新进展铺平了道路。
https://i-blog.csdnimg.cn/direct/516eebd4b4d641a09a4e2dac2df8315d.png
2.2 提高视觉吸引力(Visual Appeal)
尽管埋伏扩散模子(Latent Diffusion Models, LDMs)已被平凡用户和专业筹划师广泛接纳,但其图像生成质量通常必要额外的后处理步骤,如图像放大(image upscaling)和面部修复(face restoration)。提高 LDMs 的图像生成质量仍然是一个重大挑衅。在这项工作中,我们通过改进数据和训练方法来办理这个题目。
2.2.1 高质量数据(High Quality Data)
概念学习阶段(数十亿图像-文本对)
概念学习阶段(concept learning phase)模子重要从包含数十亿图像-文本对的大规模数据会集获取全面的知识和概念。
该阶段的数据来源于公共数据集(如 LAION ,DataComp,JourneyDB 以及专有数据集
质量改进阶段 (数百万张第5级高美学图像)
先对数据集应用传统的过滤器(如分辨率、OCR 正确性、面部数目、清晰度和美学评分),将其淘汰到大约数千万张图像
然后,这些图像被手动标注,并将标注分为五个差别的级别。为了减轻主观偏见,每张图像被标注三次,最终的级别通过投票过程确定。差别级别图像的特性如下:
第1级:内容被视为不安全,包括色情、暴力、血腥或恐怖的图像。
第2级:显示出人工合成陈迹的图像,如存在标志、水印、黑白边框、拼接图像等。
第3级:参数错误的图像,如含糊、过曝、欠曝或缺乏明白主体的图像。
第4级:平淡无奇的照片,类似于没有经过太多思量拍摄的快照。
第5级:具有高美学代价的照片,意味着图像不仅应具有适当的曝光、对比度、色调均衡和色彩饱和度,还应转达一种叙事感。
2.2.2 在高分辨率下训练(Training on High Resolutions)
扩散模子在高分辨率下通常体现不佳,由于在前向扩散过程中图像未能充分扰动。如图4所示,当按照 SDXL 提供的调度添加噪声时,低分辨率图像在终端阶段险些完全变为纯噪声,而高分辨率图像倾向于保留低频分量。由于模子在推理过程中必须从纯高斯噪声开始,这种差异可能导致高分辨率下训练和推理之间的不一致。最近的研究提出了方法来办理这个题目。
在 Kolors 中,我们接纳基于 DDPM 的训练方法,以 ε 猜测目标。在概念学习的低分辨率训练阶段,我们利用与 SDXL 雷同的噪声调度。在高分辨率训练阶段,我们引入了一种新调度方法,将步数从原来的 1000 步延伸到 1100 步,使模子可以或许实现更低的终端信噪比。此外,我们调整了 β 值以保持 αt 曲线的形状,其中 αt 决定了 xt = √αtx0 + √1− αtε。如图5所示,我们的 αt 轨迹完全覆盖了底子调度的轨迹,而其他方法的轨迹显示出显著的弊端。这表明,从低分辨率中利用的底子调度过渡时,与其他调度相比,新调度的顺应和学习难度较低。
如图6所示,通过联合高质量训练数据和优化的高分辨率训练技能,生成图像的质量得到了显著提升。
https://i-blog.csdnimg.cn/direct/5317f979eac64b75a245e4f4beb8b041.png
此外,为使模子生成差别纵横比的图像,我们在训练过程中接纳了 NovelAI 的分桶采样方法。为了节省训练资源,此策略仅在高分辨率训练阶段应用。差别分辨率图像的示例见图1和图9。
3. 评估(Evaluations)
为了正确评估 Kolors 的生成能力,我们创建了三个基本评估指标。首先,我们引入了一个新的基准 KolorsPrompts,这是一组涵盖多个类别和差别挑衅的提示集。然后,我们基于 KolorsPrompts 进行全面的人类偏好评估。此外,我们盘算了两个主动评估指标:(a)多维偏好评分(Multi-dimensional Preference Score, MPS) 和(b)闻名的图像质量评估指标 FID。我们将 Kolors 与现有的开源模子和市场上的专有体系进行了比较。
3.1 KolorsPrompts
为了全面评估文本生成图像模子,我们引入了一个整体基准 KolorsPrompts。具体而言,KolorsPrompts 包含了从公共数据会集获得的千余个提示,包括 PartiPrompts 和 ViLG-300 ,以及一些专有提示。KolorsPrompts 包括了 14 个常见的现实天了局景(如人物、食物、动物、艺术等)。此外,我们根据提示的特性将 KolorsPrompts 分为 12 个差别的挑衅。每个提示都提供了中文和英文版本。
KolorsPrompts 的分布详见图7。类别和挑衅的分布设置反映了现实利用情况。图的左侧展示了 KolorsPrompts 的类别分布,其中人物类别占比最大,为 29.4%。右侧展示了挑衅的分布,简单词语(Simple words)最为常见,占比 30.9%。
https://i-blog.csdnimg.cn/direct/f4e222fe8af34d1baf0f45e0e36adfa6.png
3.2 人类评估(Human Evaluation)
我们提供了三个评估指标来评估模子的体现:
视觉吸引力(Visual Appeal)。视觉吸引力指生成图像的整体美学质量,涵盖颜色、形状、纹理和构图等各种视觉元素,以创建令人愉悦和引人入胜的表面。在此评估中,我们向用户展示利用雷同提示生成的差别模子的图像,而不显示相应的文本描述。这种方法利用户可以或许专注于图像的视觉吸引力。每个评估者对一幅图像评分,评分范围为 1 到 5 分,其中 5 分表示完善,1 分表示最低质量。
文本忠实度(Text Faithfulness)。文本忠实度权衡生成图像与其相应提示的匹配水平。评估者被要求忽略图像质量,只关注文本描述与图像之间的相干性。评分范围为 1 到 5 分。
整体满足度(Overall Satisfaction)。整体满足度代表对图像的整体评估。在此评估中,提示和图像一起显示。评估者根据图像质量、视觉吸引力和提示与图像之间的匹配水平进行评估,评分范围为 1 到 5 分。
评估的模子每个提示生成四幅图像。我们邀请了约 50 名专业评审员根据指定的指南评估每幅图像五次。图像的最终评分为这五次评估的平均分。因此,每幅图像获得三个差别的评分,分别是视觉吸引力、文本忠实度和整体满足度。全部图像均以 1024×1024 像素的分辨率呈现。
思量到手动评估的高成本,我们的人类评估重要会集在当前最先进的文本生成图像模子上,包括 Adobe Firefly、DALL-E 3 、Stable Diffusion 3 、Midjourney-v5、Midjourney-v6 和 Playground-v2.5 。为确保比较模子的最佳性能,我们为这些模子提供英文提示,而 Kolors 则接受中文提示。具体效果见图8。Kolors 在整体满足度方面达到了最高,与 Midjourney-v6 等专有模子相称。特别是 Kolors 在视觉吸引力方面展示了显著上风。Kolors 生成的图像示例见图9。
3.3 主动评估基准(Automatic Evaluation Benchmark)
3.3.1 多维人类偏好评分(Multi-Dimensional Human Preference Score, MPS)
当前对文本生成图像模子的评估指标重要依赖于单一度量(如 FID,CLIP Score ),这些度量无法充分捕捉人类偏好。多维人类偏好评分(Multi-dimensional Human Preference Score, MPS) 被提出用于从多维人类偏好评估文本生成图像模子,并在文本生成图像评估中展示了其有效性。因此,我们利用 MPS 在 KolorsPrompts 基准上评估上述文本生成图像模子。
MPS 的效果如表 3 所示。可以看出,Kolors 达到了最高性能,与人类评估一致。这种一致性表明 KolorsPrompts 基准上的人类偏好与 MPS 分数之间有很强的相干性。
https://i-blog.csdnimg.cn/direct/54c8c91c0f9e47afb2ba32c7421c8956.png
3.3.2 MS-COCO 数据集上的保真度评估(Fidelity Assessment on COCO Dataset)
我们还利用文本生成图像任务的尺度评估指标,即 MS-COCO 256×256 验证数据集上的零样本 FID-30K,评估 Kolors。表 4 显示了 Kolors 与其他现有模子的比较。Kolors 达到了略高的 FID 分数,这可能不被视为一个高度竞争的效果。然而,我们以为 FID 可能不是评估图像质量的完全实用的指标,由于更高的分数并不一定与生成图像的优越性相干。
https://i-blog.csdnimg.cn/direct/c2d6d2e5637847ae868e70d7dea3489f.png
众多研究表明,COCO 上的零样本 FID 与视觉美学呈负相干,文本生成图像模子的生成性能更正确地通过人类评估而非统计指标评估。这些发现夸大了必要一个与真实人类偏好一致的主动评估体系,如 MPS 。
4 结论(Conclusions)
在这项工作中,我们介绍了 Kolors,这是一种基于经典 U-Net 架构的埋伏扩散模子(latent diffusion model)。通过利用通用语言模子(General Language Model, GLM)和由 CogVLM 生成的细粒度标题,Kolors 在理解复杂语义方面体现精彩,特别是涉及多个实体时,并展示了卓越的文本渲染能力。此外,Kolors 通过两个差别的阶段进行训练:概念学习阶段(concept learning phase)和质量改进阶段(quality improvement phase)。通过利用高美学数据并引入一种新的调度方法进行高分辨率图像生成,生成的高分辨率图像的视觉吸引力显著提高。此外,我们提出了一个新的类别均衡基准 KolorsPrompts,以全面评估文本生成图像模子。Kolors 在人类评估中体现精彩,超越了大多数开源和专有模子,如 Stable Diffusion 3、Playground-v2.5 和 DALL-E 3,并展示了与 Midjourney-v6 相称的体现。
我们很高兴公布公开发布 Kolors 的模子权重和代码。在将来的工作中,我们筹划逐步发布 Kolors 的各种应用和插件,包括 ControlNet 、IP-Adapter 和 LCM 等。此外,我们还打算基于 Transformer 架构发布一个新的专有扩散模子。我们盼望 Kolors 能推动文本生成图像社区的发展,并致力于为开源生态体系做出重大贡献。
其他生成示例
https://i-blog.csdnimg.cn/direct/3d36e4405e4a465bb3b1d5729bacf5a6.png
https://i-blog.csdnimg.cn/direct/c83c66d5ae3f4b47903b0b791a200ce5.png
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]