【AI绘画教程】Stable Diffusion 1.5 vs 2
在本文中,我们将总结稳固扩散 1 与稳固扩散 2 辩论中的所有要点。我们将在第一部分中查看这些差异存在的实际缘故起因,但假如您想直接相识实际差异,您可以跳下否定提示部分。让我们开始吧!https://i-blog.csdnimg.cn/direct/0b4b3bf4cfdb42f38095ad719a7f8c5b.png
Stable Diffusion 2.1 发布与1.5相比,2.1旨在解决2.0的许多相对缺点。本文的内容与明白 Stable Diffusion 1 与 2 仍然相关,但读者应确保额外阅读附加的 Stable Diffusion 2.1 部分以相识全貌。
OpenCLIP
Stable Diffusion 2 所做的最重要的转变是更换了文本编码器。Stable Diffusion 1 使用 OpenAI 的 CLIP,这是一个开源模子,可以学习标题描述图像的程度。虽然模子本身是开源的,但练习 CLIP 的数据集很重要,它不是公开的。
Stable Diffusion 2 改用 OpenCLIP,这是 CLIP 的开源版本,它是使用已知数据集练习的——LAION-5B 的一个美学子集,可以过滤掉 NSFW 图像。Stability AI表示,OpenCLIP“大大提高了天生图像的质量”,究竟上,在指标上优于未发布的CLIP版本。
为什么这很重要
撇开这些模子的相对性能不谈,从 CLIP 到 OpenCLIP 的转变是 Stable Diffusion 1 和 Stable Diffusion 2 之间许多差异的根源。
特殊是,许多 Stable Diffusion 2 的用户声称它不能像 Stable Diffusion 1 那样代表名流或艺术风格,只管 Stable Diffusion 2 的练习数据没有被故意过滤以删除艺术家。这种差异源于这样一个究竟,即CLIP的练习数据比LAION数据集有更多的名流和艺术家。由于CLIP的数据集不向公众开放,因此无法仅使用LAION数据集恢复相同的功能。换言之,Stable Diffusion 1 的许多规范提示方法对于 Stable Diffusion 2 来说险些已颠末期了。
这意味着什么
这种向完全开源、开放数据模子的改变标志着 Stable Diffusion 故事的重要转变。对 Stable Diffusion 2 举行微调并构建人们盼望看到的功能将落在开源社区的肩上,但这实际上是 Stable Diffusion ab initio 的意图——一个由社区驱动的、完全开放的项目。虽然一些用户目前可能对 Stable Diffusion 2 的相对性能感到扫兴,但 StabilityAI 团队已经花费了超过 100 万 A100 小时来构建一个坚固的底子。
此外,虽然创建者没有明确提及,但这种从使用 CLIP 的转变可能会为项目贡献者提供一些保护,防止潜在的责任问题,考虑到即将到来的知识产权诉讼海潮,这很重要。
考虑到这个配景,现在是时候讨论 Stable Diffusion 1 和 2 之间的实际区别了。
Negative Prompts
我们起首检查负面提示,与 SD 1 相比,它好像对 Stable Diffusion(SD) 2 的强劲性能更重要,如下所示:
https://i-blog.csdnimg.cn/direct/13aa42cd577f4a95a032081e7d9b2b69.png
现在让我们更详细地看一下负面提示。
Simple Prompt
起首,我们将提示“无边池”提供给 Stable Diffusion 1.5 和 Stable Diffusion 2,没有负面提示。显示了每个模子的三张图像,其中每列对应于不同的随机种子。
https://i-blog.csdnimg.cn/direct/bd21dfa2cf1b49afab236f9ca5b7ca21.png
prompt: "infinity pool"
size: 512x512
guidance scale: 12
steps: 50
sampler: DDIM
正如我们所看到的,Stable Diffusion 1.5 总体上好像比 Stable Diffusion 2 体现更好。在SD 2中,最左边的图像有一个贴片,与图像不匹配,而最右边的图像险些是不连贯的。
现在,我们以相同的方式从相同的起始噪声天生图像,这次使用负提示。我们添加了否定提示“丑陋、平铺、画得欠好的手、画得欠好的脚、画得欠好的脸、出框、突变、突变、额外的四肢、额外的腿、额外的手臂、毁容、变形、斗鸡眼、身体出框、含糊、糟糕的艺术、糟糕的解剖学、含糊、文本、水印、颗粒状”(ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy),这是 Emad Mostaque 使用的否定提示。
添加否定提示后,SD 1.5 通常体现更好,只管中间图像的标题对齐方式可能较差。对于 SD 2,改进更为剧烈,只管团体性能仍然不如 SD 1.5
https://i-blog.csdnimg.cn/direct/6213b579d324401f883371470e9fcfac.png
prompt: "infinity pool"
size: 512x512
guidance scale: 12
steps: 50
sampler: DDIM
negative prompt: "ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy" 我们直接比较有和没有负面提示的 SD 2 性能。检查展现了否定提示对可持续发展 2 至关重要这一命题的支持。
https://i-blog.csdnimg.cn/direct/e7a2f248ad754c6381cbe783f1974d48.png
下面我们可以看到 SD 1.5 和 2 天生的最终图像的比较,无论有没有否定提示,从同一个随机种子开始。
https://i-blog.csdnimg.cn/direct/119f93afe7a14a419f52134499bc65c7.png
Complicated Prompt
我们运行与上面相同的实验,这次使用更复杂(积极)的提示。这一次,我们使用的不是“无边泳池”,而是“无边泳池,配景是热带丛林,分辨率高,细节,8 k,数码单反相机,精良的照明,光线追踪,逼真”(infinity pool with a tropical forest in the background, high resolution, detail, 8 k, dslr, good lighting, ray tracing, realistic)。虽然我们可以省略“配景中有热带丛林”部分,以隔离纯粹的美学添加,但我们包罗它是为了更好地探索更复杂提示的语义拟合度。
同样,我们在没有负面提示的情况下显示结果。图像看起来不再逼真,标题对齐可以说更好。SD 1.5 的水质地也要好得多。
https://i-blog.csdnimg.cn/direct/d28152d6da4d48bc863cf00e295cb08f.png
prompt: "infinity pool with a tropical forest in the background, high resolution, detail, 8 k, dslr, good lighting, ray tracing, realistic"
size: 512x512
guidance scale: 12
steps: 50
sampler: DDIM
一旦我们添加了与上一个示例相同的否定提示,我们就会看到一些风趣的结果。特殊是,否定提示好像实际上可能会对 SD 1 产生不利影响,但对 SD 2 有普遍帮助。SD 2 中的每张图像在否定提示下都更好,而 SD 1 的标题对齐方式好像普遍下降。风趣的是,添加否定提示好像将天生的图像推向了照片级真实感。
https://i-blog.csdnimg.cn/direct/04968e8d0f4949f79a115ded6e16ac42.png
prompt: "infinity pool with a tropical forest in the background, high resolution, detail, 8 k, dslr, good lighting, ray tracing, realistic"
size: 512x512
guidance scale: 12
steps: 50
sampler: DDIM
negative prompt: "ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy" 我们再次直接比较从各种随机种子天生的图像,有和没有 SD 2 的负面提示。
https://i-blog.csdnimg.cn/direct/0dd7d9a181fb476e99426228d2cd4e2e.png
最后,我们再次显示 SD 1.5/SD2 与带/不带负提示矩阵的比较:
https://i-blog.csdnimg.cn/direct/eb96fab20b894f95ab8d27551f9568ea.png
Textual Inversion(文本反转)
除了普通的否定提示,Stable Diffusion 还支持文本反转。文本反转是一种方法,其中可以使用少量参考图像来天生表示图像的新“单词”。一旦学会了“单词”,就可以像往常一样在提示中使用,使我们能够天生忠实地映射到参考图像的图像。在下面的示例中,一个小图形的 4 个图像被反转为“S_*”。然后像往常一样在各种提示中使用这个“词”,将参考图像与其他语义概念忠实地结合在一起:
https://i-blog.csdnimg.cn/direct/a53a7e6a3d444b3dadf35652756b0340.png
在下面的示例中,我们使用 Stable Diffusion 2.0 从根本提示“鲜味的汉堡包”创建了几张图像。然后,此提示将使用正提示或文本反转标记和/或负提示或文本反转标记举行扩充。比方,第二行最右边的图像使用引用 Midjourney 的文本倒置标记和正常的否定提示“丑陋、无聊、糟糕的解剖学”来增强根本提示。
https://i-blog.csdnimg.cn/direct/78429a2d9dba441fa34913919170042a.png
正如我们所看到的,文本反转的使用显着提高了 Stable Diffusion 2.0 的性能。
名流
鉴于 LAION 包含的名流图像比 CLIP 的练习数据少,因此知道许多 SD 2 用户观察到天生名流图像的本领比 SD 1.5 更差也就不敷为奇了。
下面我们展示了从 3 个随机种子(列)天生的图像,有和没有 SD 1.5 和 SD 2 的负面提示。提示是“基努·里维斯”,此图像的全分辨率版本也可用。
https://i-blog.csdnimg.cn/direct/099412071d3e420085424f56154df555.png
prompt: "keanu reeves"
size: 512x512
guidance scale: 7
steps: 50
seed: 119
sampler: DDIM
negative prompt: "ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy"
总体而言,SD 2 在此特定提示方面的性能可与 SD 1.5 相媲美。话虽云云,Stable Diffusion 2 刻画名流的本领在与语义概念相结合时好像会瓦解。我们在下面临两个这样的提示举行比较,其中图像中的每一列再次对应于给定的随机种子。这一次,我们在每种情况下都使用否定提示。
https://i-blog.csdnimg.cn/direct/c358ddfd24b24ec4aafc2390a249c3d8.png
prompt: "a white marble bust of Robert Downey Jr. in a museum, cinematic lighting, hyperdetailed, 8 k realistic, global illumination, radiant light, frostbite 3 engine, cryengine, trending on artstation, digital art, fantasy background"
size: 512x512
guidance scale: 12
steps: 50
seed: 120-122
sampler: DPM-Solver++
negative prompt: "ugly, tiling, out of frame, deformed, blurry, bad art, blurred, watermark, grainy"
https://i-blog.csdnimg.cn/direct/32268307c26744d493346783fe7b90c3.png
prompt: "a studio photograph of Robert Downey Jr., cinematic lighting, hyperdetailed, 8 k realistic, global illumination, radiant light, frostbite 3 engine, cryengine, trending on artstation, digital art"
size: 512x512
guidance scale: 7
steps: 50
seed: 119-121
sampler: DPM-Solver++
negative prompt: "ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy"
正如我们所看到的,Stable Diffusion 1.5 在这方面每每优于 Stable Diffusion 2(它甚至一度好像刻画了史蒂夫·卡雷尔而不是小罗伯特·唐尼)。虽然这种差异是料想之中的,但考虑到基努·里维斯的例子的结果,其程度可能比预期的要大。
艺术图像
如 OpenCLIP 部分所述,除了包含的名流图像比 CLIP 练习数据少之外,LAION 数据集还包含更少的艺术图像。这意味着天生程式化图像变得更加困难,并且“以_____风格_____”的规范方法不再像在 Stable Diffusion 1 中那样起作用。下面我们比较了 Stable Diffusion 1.5 和 Stable Diffusion 2 的 4 个随机种子的图像,我们实验以 Greg Rutkowski 的风格天生图像。
https://i-blog.csdnimg.cn/direct/4fa92fb1e8294459ab0764fc9818d930.png
prompt: "A monster fighting a hero by greg rutkowski, romanticism, cinematic lighting, hyperdetailed, 8 k realistic, global illumination, radiant light, trending on artstation, digital art"
size: 512x512
guidance scale: 9
steps: 50
seed: 119-122
sampler: DPM-Solver++
negative prompt: "ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy"
结果是激烈的 - Stable Diffusion 1.5 再次成为 Stable Diffusion 2 的明显赢家(开箱即用)。虽然使用其他未明确引用艺术家的描述符来增强提示,但仍然可以使用 SD 2 天生风格化图像,但性能仍然不如 SD 1.5,如下所示:
https://i-blog.csdnimg.cn/direct/575bae7e991a415fb19ba4d36f80d133.png
另一方面,一些用户发现 SD 2 在天生逼真的图像方面具有很强的本领:
https://i-blog.csdnimg.cn/direct/0b746c35f89b47ca9e014d5d06749220.png
文本连贯性
与 Stable Diffusion 1 相比,Stable Diffusion 2 可能具有开箱即用的优势,其中一个地方是文本连贯性。大多数文本到图像模子在表示文本方面都很差。这完全不敷为奇——虽然我们人类很容易解析文本,但我们必须记住,单词是极其复杂的语言系统的一部分,根据特殊规则排列以传达含义。此外,这些单词本身以明显近乎随机的方式由字母组成;而且,更进一步,这些字母的实际视觉体现可能会有很大差异(比方,比较 Jokerman 和 Consolas 字体)。这些考虑因素(以及其他因素)为这些模子无法正确传达文本提供了一些表明,尤其是在简单单词之外。
话虽云云,Stable Diffusion 2 在传达文本方面好像比 Stable Diffusion 1 略好一些。下面我们提供几张图片举行比较:
https://i-blog.csdnimg.cn/direct/eaab8f4bc2a64905b6a7da7ec3b55831.png
正如我们所看到的,这两种情况的结果都不是很好,负面提示好像在这方面影响不大。虽然很难对这些模子天生文本的效果提出客观的衡量标准,但可以说普通人会认为 Stable Diffusion 2 稍微好一点。
其他型号
除了从 CLIP 到 OpenCLIP 的转变之外,Stable Diffusion 2 还发布了一些其他强大的功能,我们在下面总结了这些功能。
深度模子
深度模子与SD 2一起发布。此模子采用 2D 图像并返回该图像的预测深度图。然后,除了文本之外,这些信息还可用于条件图像天生,从而允许用户天生忠实于参考图像几何形状的新图像。
https://i-blog.csdnimg.cn/direct/2833d056de5f42dd879226350316a221.png
下面我们可以看到一连串这样的图像,它们都保存了相同的根本几何结构。
https://i-blog.csdnimg.cn/direct/e8804493aa1949e08f5ab205623ce566.png
升级模子
Stable Diffusion 2 还发布了一个升级模子,可以将图像放大到原始边长的 4 倍。这意味着放大图像的面积是原始图像的 16 倍!
下面我们可以看到放大我们之宿世成的图像之一的结果:
https://i-blog.csdnimg.cn/direct/139b801d9fc1442292c4339cca74de5c.png
假如我们放大每张图像中兔子的眼睛,差异会立即显现出来,并且非常令人印象深刻。
https://i-blog.csdnimg.cn/direct/2f7456b122404e0bbf0ec2ea53ae29fd.png
修复模子
Stable Diffusion 2 还附带了更新的修复模子,可让您修改图像的子部分,使补丁在美学上符合
768 x 768 Model
最后,Stable Diffusion 2 现在支持 768 x 768 图像 - 是 Stable Diffusion 1 的 512 x 512 图像面积的两倍多。
Stable Diffusion 2.1
Stable Diffusion 2.1 是在 Stable Diffusion 2.0 发布后不久发布的。SD 2.1 旨在解决 2.0 相对于 1.5 的许多相对缺点。让我们来看看 2.1 是如何做到这一点的。
NSFW过滤器
相对于 2.0,2.1 的最大变革是修改了 NSFW 滤波器。回想一下,2.0 是在 LAION 数据集的一个子集上练习的,该子集使用 NSFW 过滤器过滤了不适当的内容,这反过来又导致刻画人类的本领相对低沉。
Stable Diffusion 2.1 也使用这样的过滤器举行练习,只管过滤器本身被修改为限定较少。特殊是,过滤器抛出的误报更少,这大大增长了能够通过过滤器并练习模子的图像数目。练习数据的增长导致了刻画人物的本领的提高。我们再次展示了小罗伯特·唐尼(Robert Downey Jr.)使用相同设置创建的几张图像,除了用于天生它们的模子版本,这次包罗Stable Diffusion 2.1。
https://i-blog.csdnimg.cn/direct/e46594c57f5243c8993f8fbe9d4d8de4.png
prompt: "a studio photograph of Robert Downey Jr., cinematic lighting, hyperdetailed, 8 k realistic, global illumination, radiant light, frostbite 3 engine, cryengine, trending on artstation, digital art"
size: 512x512
guidance scale: 7
steps: 50
seed: 119
sampler: DPM-Solver++
negative prompt: "ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy"
正如我们所看到的,Stable Diffusion 2.1 比 Stable Diffusion 2 有了显着的改进,能够实际刻画小罗伯特·唐尼。 此外,SD 2.1 的皮肤纹理甚至比 SD 1.5 更好。
艺术风格
不幸的是,SD 2.1 刻画特定艺术家风格的本领显然仍然达不到 SD 1.5。下面我们再次看到使用相同设置创建的图像,除了用于创建它们的模子。这些图像旨在捕捉格雷格·鲁特科夫斯基(Greg Rutkowski)的风格。
https://i-blog.csdnimg.cn/direct/a0838e6fa6d04149b1a8c070c1a551be.png
prompt: "A monster fighting a hero by greg rutkowski, romanticism, cinematic lighting, hyperdetailed, 8 k realistic, global illumination, radiant light, trending on artstation, digital art"
size: 512x512
guidance scale: 9
steps: 50
seed: 158
sampler: DPM-Solver++
negative prompt: "ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, blurred, text, watermark, grainy"
正如我们所看到的,Stable Diffusion 1.5 在这方面仍然占据着至高无上的职位。
通例图像
我们重复上一节中关于普通提示与“增强”提示的实验,再次仅更改模子版本。
https://i-blog.csdnimg.cn/direct/7c014db6d1f442b89a840fe49c7f6967.png
"Original" prompt: "a cute rabbit"
"Augmented" prompt: "a cute rabbit, cinematic lighting, hyperdetailed, 8 k realistic, global illumination, radiant light, frostbite 3 engine, cryengine, trending on artstation, digital art, fantasy background"
size: 512x512
guidance scale: 9
steps: 50
seed: 119
sampler: DPM-Solver++
negative prompt: "ugly, tiling, out of frame, deformed, blurry, bad art, blurred, watermark, grainy"
正如我们所看到的,2.1 的“原始”纹理比 2.0 有所改进。2.1 的“增强”图像比 2.0 的更具风格化,但总体上非常相似。
结论
虽然这些实验肯定不是严格或详尽的,但它们提供了一些关于 SD 1 和 SD 2 的相对性能的看法。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]