【AIGC】Kolors:快手开源的文生图大模子

立山  论坛元老 | 2024-9-28 14:57:29 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1860|帖子 1860|积分 5580

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
GitHub:GitHub - Kwai-Kolors/Kolors: Kolors Team
论文:Kolors/imgs/Kolors_paper.pdf at master · Kwai-Kolors/Kolors · GitHub
comfyui:GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

重要工作贡献

        选择GLM作为Kolors中英语和中文文本表示的合适的大语言模子。此外,我们还使用由多模态大语言模子天生的详细描述来增强训练图像。因此,Kolors在理解复杂的语义方面体现出了特别的熟练程度,特别是在涉及多个实体的场景中,并展示了良好的文本呈现本领 。
        Kolors采用两阶段的方法进行训练,其中包罗概念学习阶段,使用广泛的知识,和质量改进阶段,使用经心筹谋的高级美学数据。此外,我们引入了一种新的采样计谋来优化高分辨率图像的天生。这些计谋有效地提高了天生的高分辨率图像的视觉吸引力。
方法

 基于大型语言模子的文本编码器

        文本编码器是文本到图像天生模子的一个重要组成部分,它直接影响和控制模子天生的内容。我们将典型图像天生模子的文本编码器的使用情况与表1中我们的Kolors进行了比力。一般来说,CLIP [28]和T5 [29]系列重要是文本编码器。经典的方法,如SD1.5 [32]和DALL-E 2 [30],使用CLIP模子的文本分支来进行文本表示。然而,由于CLIP是通过对比损失训练来使整个图像与文本描述对齐的,因此它很难理解涉及多个主题、位置或颜色的详细图像描述
 一些方法从编码器-解码器变压器T5中提取文本嵌入,该T5携带更细粒度的局部信息,如Imagen [34]和PixArt-α [5]。此外,其他方法还使用多个文本编码器来增强文本理解。比方,eDiff-I [2]提出了一个集成的文本编码器,它结合了CLIP和T5,同时用于全局和当地文本表示。SDXL [27]使用了两个CLIP编码器,并在开源社区中取得了很有希望的效果。SD3 [9]进一步将一个T5-XXL文本编码器集成到其模子架构中,这对于处理复杂的提示是必不可少的。最近,LuminaT2X提出了一个同一的框架,通过使用预先训练好的LLM模子LLama2 [38],将文本转换为任何模态。
        值得注意的是,由于CLIP中英文文本编码器的局限性,大多数文本到图像的天生模子在中文提示中都遇到了困难。HunyuanDiT[19]通过使用双语CLIP和多语言T5 [43]编码器进行中文文本到图像的天生,解决了这个题目。然而,中文文本的训练语料库只占多语言T5数据集的不到2%,双语CLIP产生的文本嵌入仍然不足以处理复杂的文本提示。
        为了解决这些限制,我们选择了通用语言模子(GLM)[8]作为Kolors中的文本编码器。GLM是一种基于自回归空白添补目标的双语(英语和中文)预训练语言模子,在天然语言理解和天生任务方面显著优于BERT和T5。我们假设预先训练的ChatGLM3-6B-Base模子更适合文本表示,而ChatGLM3-6B谈天模子颠末了人类偏好对齐训练,善于文本呈现。因此,在Kolors中,我们使用开源的ChatGLM3-6B-Base作为文本编码器,该编码器颠末了凌驾1.4万亿个双语token的预训练,从而产生了强大的中文理解本领。 
 基于多模态大语言模子改进的详细提示词

 使用多模态语言模子重新标注文本图像对,同时提出评估文本描述质量的方法
•长度:汉字总数。
•完整性:文本描述包含整个图像的程度。如果文本描述了图像中的所有对象,则得分为5分;如果文本描述的对象少于30%,则得分为1分。
•相关性:文本描述表示图像前景元素的正确性。如果文本描述了所有的前景对象,则得分为5分;如果文本覆盖的前景对象少于30%,则得分为1分。
•幻觉:在文本中提到的没有在图像中出现的细节或实体的比例。5分表示文本中没有幻觉,而如果凌驾50%的文本是有幻觉,则得分为1分。
•主观性:文本偏离描述图像的视觉内容的程度,而是传达主观印象的程度。比方,像“它给人一种轻松和宁静的感觉,让人们感到舒适”这样的话被认为是主观的。如果没有主观文本,则得分为5分,如果凌驾50%的文本包含主观句子,则得分为1分。
•匀称:匀称
下表是基于扩散模子差别的文本编码器的比力

 对比几个多模态大语言模子,最终选择了CogVLM-1.1-chat.

增强中文文本渲染本领 

重要难点
1.大量的汉字和这些汉字复杂的纹理使中文文本比英语更具挑战性。
2.由于缺乏包含中文文本和相关图像的足够的训练数据,导致模子训练和拟合本领不足。 
         首先,对于汉语语料库,我们选择了5万个最常用的单词,构建了一个数千万个的训练数据集通过数据合成得到的图像-文本对。为了确保有效的学习,这些综合的数据只在概念学习阶段被合并。其次,为了增强天生的图像的真实性,我们使用OCR和多模态语言模子对真实天下的图像天生新的描述,如海报和场景文本,从而得到了大约数百万个样本。
        通过整合综合数据和真实数据,系统地解决训练数据的局限性,显著提高了中文文本渲染的质量,从而为中文文本图像天生的新希望铺平了门路。 
提高视觉感染力 

         培训分为两个阶段:概念学习阶段质量改进阶段。在概念学习阶段,该模子重要从一个包含数十亿个图像-文本对的大规模数据会合获取全面的知识和概念。这个阶段的数据来自于公共数据集(比方,LAION [35],DataComp [11],JourneyDB [37])以及专有数据集。通过采用种别均衡计谋,该数据集确保了广泛覆盖广泛的视觉概念。在质量改进阶段,焦点转移到提高高分辨率的图像细节和美学。[6,18]之前的工作也强调了在此过程中数据质量的关键重要性
        为了得到高质量的图像-文本对,我们首先将传统的过滤器(如分辨率、OCR精度、面部、清晰度和美学评分)应用到我们的数据集,从而将其减少到大约数千万张图像。这些图像随后会进行人工解释,并将解释分为五个差别的级别。为了减轻主观私见,每幅图像被解释三次,最终的级别通过投票过程确定。差别级别图像的特性体现如下: 
•级别1:被认为不安全的内容包罗刻画色情、暴力、血腥或恐怖的图片。
•级别2:显示人工合成迹象的图像,如存在标识、水印、黑色或白色边框、缝合图像等。
•级别3:有参数错误的图像,如模糊、过度曝光、曝光不足,或缺乏一个清晰的主题。
•级别4:不起眼的照片,类似于没有过多思量的快照。
•级别5:具有高审美代价的照片,这意味着一幅图像不但应该具有适当的曝光度、对比度、色调均衡和色彩饱和度,而且还应该传达一种叙事感。
这种方法最终产生了数百万张5级高美学图像,这些图像被用于质量增强阶段。 
高分辨率图像训练 
在Kolors中,我们采用了基于DDPM的训练方法[13],具有一个猜测目标。在概念学习的低分辨率训练阶段,我们采用了与SDXL [27]雷同的噪声时间表。对于高分辨率训练,我们引入了一个新的时间表,它简单地将步数从原来的1000扩展到1100,使模子能够实现更低的终端信噪比。此外,我们调解了β的值,以保持αt曲线的形状,其中αt决定了xt =√αtx0 +√1−αtϵ。如图5所示,我们的αt轨迹完全包含了基本调度的轨迹,而其他方法的轨迹则有明显的毛病。这表明,当从低分辨率中使用的基本时间表过渡时,与其他时间表相比,新时间表的适应和学习难度低沉了。 
下图是提升视觉质量前后的比力


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

立山

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表