曂沅仴駦 发表于 2024-8-1 08:16:14

SD好复杂,是不是很糊,一文搞懂Stable Diffusion的各种模型及用户操作界面

这篇文章中对 Stable Diffusion 的各个功能做了具体先容,本日重要是以一秒内就能天生图片的爆炸性模型 SDXL Turbo的发布为契机,对SD 的各类底子模型:SD 1.x、SD 2.x、SD 1.5、SDXL 1.0和SDXL Turbo,及操作界面:WebUI、ComfyUI和Fooocus进行具体先容,一文搞懂他们之间的关系,选择不迷路。
https://i-blog.csdnimg.cn/blog_migrate/a3181823ba186694c2272e5e451fa2cd.png
一、SD 底子模型先容
1、SD 1.x:这是Stable Diffusion的早期版本,重要用于图像天生任务。这里的1.x表现1系列的重要版本,x是一个变量,表现具体的子版本。
2、SD 2.x:这是SD 1.x的后续版本,对模型进行了优化和改进,提高了图像天生质量和速率。同样,2.x表现2系列的重要版本,x是一个变量,表现具体的子版本。
3、SD 1.5:这是一个在SD 1.x底子上进行优化的版本,它在文本到图像天生任务上表现尤为出色,可以或许天生更符实用户需求的图像。
4、SDXL 1.0:这是一个在SD 1.5底子上进一步优化的版本,接纳了一种名为“对抗性扩散蒸馏”(Adversarial Diffusion Distillation,简称ADD)的新技术,使得模型可以或许在保持高采样保真度的同时实实际时图像天生。
5、SDXL Turbo:它是在SDXL 1.0的底子上进行迭代的版本。特点是天生图像的服从非常高,几乎可以做到实时响应。在用户输入完文本提示后,图像就能立即显示。SDXL Turbo不仅速率快,天生的图像质量也非常高,可以或许精准还原提示文本的形貌。得益于其接纳的对抗性扩散蒸馏技术,该技术可以在高质量图像下以1-4个步调对大规模底子图像扩散模型进行采样,同时避免了其他蒸馏方法中常见的失真或模糊问题。存在的范围性:目前它只能天生固定像素的图片,对于一些细节大概表现的不够好,如人的手指、面部表情等,无法完善的展现照片级真实感。目前SDXL Turbo只能用于学术研究,还未开放商业权限。
https://i-blog.csdnimg.cn/blog_migrate/133e88ec8cec9bb5bfdf68ed3edb22a8.gif
直接连着游戏,获得了 2fps 的风格迁移画面
https://i-blog.csdnimg.cn/blog_migrate/191fa0c4086be7ef86ed6259057f1069.gif
https://i-blog.csdnimg.cn/blog_migrate/a5709c08fe9b9a31b8f5c9630aa2afd2.gif
一边输入,一边天生
二、以SD 底子模型进行训练和优化的其他模型
以SD 底子模型进行训练和优化的常用模型先容:
1、majicMIX realistic:专门用于天生唯美的人像图片,目前已更新至第七版。融合了多种模型,可以或许天生具有吸引力的面部特性,并能有效地处理暗部细节。
https://i-blog.csdnimg.cn/blog_migrate/22b7af21cd38469c58f5f17d26028fe1.png
2、ChilloutMix:专为天生传神的亚洲人物形象而设计。与majicMIX realistic类似,ChilloutMix在天生高质量人物图像方面表现出色。
https://i-blog.csdnimg.cn/blog_migrate/79a5fa307a1e1e010cad3894d30a2f85.png
3、AnythingElse V4:重要天生高质量的二次元和动漫图像。虽然它的风格相对较为单一,但在动漫领域表现出色。
https://i-blog.csdnimg.cn/blog_migrate/67396f7a255aa9feaa130d824674f13f.png
4、GuoFeng3:重要用于天生具有中国富丽古风风格的图像。它在古风游戏角色和场景天生方面具有上风。
https://i-blog.csdnimg.cn/blog_migrate/e160dbc793fc024eccd19bcf01ecefff.png
5、RongHua:这是另一个国风系列模型,专注于天生具有中国特色的服装、道具和化妆元素。它在国风创作领域具有较高的评价。
https://i-blog.csdnimg.cn/blog_migrate/4f79b43198d6abb2dd2c2b4d2573378b.png
6、Dreamlike-photoreal-2.0:用于天生传神的场景和物品。它在天生高质量的实际世界图像方面具有上风。
https://i-blog.csdnimg.cn/blog_migrate/e56c25a3d03e8e839e47487bcaf31f04.png
在模型选择时,我们并不直接选择SD 1.x、SD 2.x或是SD 1.5这样的底子模型进行画图,而是选择majicMIX realistic、ChilloutMix等特定优化模型,重要基于以下原因:
1、针对性优化:像majicMIX realistic、ChilloutMix这样的模型是在底子模型的底子上进行了针对性的优化和调解,以满足特定领域或风格的需求。这使得这些模型在天生特定类型图像时的性能更优,例如majicMIX realistic在天生传神的亚洲人物形象方面,ChilloutMix在天生高质量的二次元和动漫图像方面。
2、更高的专业性和质量:这些特定优化的模型往往在某些方面具有更高的专业性和图像质量。例如,majicMIX realistic在人物形象的传神度和场景泛化能力上表现出色,而ChilloutMix则在动漫领域的图像天生质量上具有上风。
3、更好的用户体验:这些优化模型通常在易用性和用户体验上进行了改进,使得用户可以或许更方便地天生所需的图像。例如,一些模型大概会提供更多的控制参数,让用户可以或许更精细地调解天生结果。
4、更广泛的应用场景:这些特定优化模型往往在某些应用场景中具有更广泛的实用性。例如,GuoFeng3和RongHua等国风系列模型在天生中国古风场景和元素时具有上风,而Dreamlike-photoreal-2.0则在天生传神的场景和物品方面表现出色。
总之,选择majicMIX realistic、ChilloutMix等优化模型而不是底子模型的重要原因是为了获得更好的性能、更高的专业性、更广泛的应用场景以及更优的用户体验。这些优化模型在特定领域和风格上的表现往往优于底子模型,从而使得用户可以或许更高效地天生满足需求的图像。
三、以SD 底子模型进行训练和优化的模型的定名规则
通常看到的就两种:safetensors和ckpt,此外还有.pt 或 .pth。
1、safetensors是一种模型文件格式,这种格式是专门为Stable Diffusion模型设计的,具有较小的文件体积和较快的加载速率。safetensors文件只包含模型的权重,而不包含优化器状态或其他信息,通常用于模型的最终版本,当我们只关心模型的性能,而不需要相识训练过程中的具体信息时,这种格式是一个很好的选择。
2、.ckpt:这是一种Checkpoint(查抄点)格式的模型文件,用于生存模型的权重和优化器的状态。这种文件格式在训练过程中天生,可以用来恢复训练或调解模型。ckpt模型文件通常较大,因为它们包含了训练过程中的中心状态。
3、.pt 或 .pth:这些文件格式通常用于PyTorch模型,此中.pt表现PyTorch张量(Tensor),而.pth表现PyTorch模型参数。这些文件包含了模型的权重和布局信息,但不包含优化器状态。
在选择模型的存储格式时,需要根据利用场景来决定。例如,如果你需要进行模型微调,大概需要在训练过程中获得具体的信息,Checkpoint格式(.ckpt)大概是更好的选择。而对于那些仅需要快速加载和实行模型的场景,safetensors大概是更好的选择。
四、LCM模型先容
Latent Consistency Models(潜一致性模型)是一个以天生速率为重要亮点的图像天生架构。和需要多步迭代传统的扩散模型(如Stable Diffusion)不同,LCM仅用1 - 4步即可到达传统模型30步左右的效果。由清华大学交叉信息研究院研究生骆思勉和谭亦钦发明,LCM将文生图天生速率提拔了5-10倍。(其刚出来,就被上文提到的SDXL Turbo直接碾压,以后有机会再具体说)。
https://i-blog.csdnimg.cn/blog_migrate/93746a5593cf9153ffcfc99ed4d40da1.gif
3分钟快速渲染:AnimateDiff Vid2Vid + LCM
LCM的一个关键特点是它能在非常短的推理时间内天生图像,使其成为需要快速处理的应用场景中的名贵工具。
LCM与稳固扩散(Stable Diffusion)模型兼容,并能加强其性能。它可以集成到稳固扩散的Web UI中,利用户可以或许轻松访问LCM功能。当利用稳固扩散天生动画时,这种集成特别有益,因为它提高了扩散过程的速率和稳固性。LCM可以在CPU和GPU上运行,为不同硬件能力的用户提供机动性。
LCM模型通过将无分类器引导(classifier-free guidance)蒸馏到模型的输入中来工作。这种方法允许利用较少的盘算资源并在比传统方法短得多的时间内天生高质量图像。例如,利用A800 GPU,LCM可以在CFG规模为w=8且批量大小为4的环境下天生768 x 768分辨率的图像,展示了其服从和性能。
https://i-blog.csdnimg.cn/blog_migrate/d05c35b29507bf94fc20218f6a107ff8.gif
实时图像编辑
此外,LCM已被集成到Diffusers库中,使其对开发者和研究人员更加易于访问。它支持各种功能,如图像到图像和文本到图像的天生,显示了其在不同图像天生背景下的多功能性。
总的来说,LCM在AI图像天生领域代表了一个庞大进步,特别是在速率和服从方面。它与稳固扩散模型的集成为实时图像天生和动画制作打开了新的大概性,使其成为各种创意和实际应用中的工具。
https://i-blog.csdnimg.cn/blog_migrate/84d9cd9c3dfd5063fa8129a3b29e058b.gif
Krea.ai实时图像编辑
五、SD 用户界面工具
重要先容三种:Fooocus、SD WebUI和ComfyUI
1、SD WebUI:
SD WebUI是一个基于Web的界面,用于运行Stable Diffusion模型。它允许用户在欣赏器中输入文本提示,然后天生相应的图像。SD WebUI支持多种功能,如调解模型、图像尺寸、采样步数等。用户可以在WebUI中方便地调解这些参数,以获得满足的图像天生效果。SD WebUI的一个优点是其易于利用,用户无需安装任何额外的软件,只需在欣赏器中打开WebUI页面即可开始利用。
https://i-blog.csdnimg.cn/blog_migrate/8996f506c5378585c907c053c7a66f9c.png
2、ComfyUI:
ComfyUI是一个功能强大的节点编辑工具,支持Stable Diffusion模型的双模型盘算。与SD WebUI相比,ComfyUI提供了更多的自界说选项和机动性。用户可以通过连接不同的节点来创建工作流,从而实现对图像天生过程的精细控制。ComfyUI支持多种插件,如ADetailer、Controlnet和AnimateDIFF等,这些插件可以进一步扩展ComfyUI的功能。值得注意的是,ComfyUI可以在MacBook Pro M1的16GB内存上运行双模型盘算,这使得它在一定水平上具有竞争上风。
https://i-blog.csdnimg.cn/blog_migrate/9ccdc0d1e701c4a370fc1a38072d4077.png
3、Fooocus:Fooocus的重要特点是简单易用,用户只需关注提示词的书写,就可以天生高质量的图片。Fooocus的作者是斯坦福大学博士生张吕敏,他对Fooocus进行了大量的优化,使得用户可以忘记全部那些困难的技术参数,只享受人与盘算机之间的交互。
https://i-blog.csdnimg.cn/blog_migrate/6d6acba1ddc6a85923f28a160827d3e8.png
总之,Fooocus、SD WebUI和ComfyUI都是基于Stable Diffusion模型的AI绘画工具,各自具有不同的特点和上风。Fooocus以其简单易用和高质量的图像天生而受到关注,而SD WebUI和ComfyUI则分别以易用性和机动性而受到欢迎。用户可以根据自己的需求和喜欢选择符合的工具。
六、常用模型下载网站
目前比较常见的就是以下三个站点:
1、https://civitai.com/俗称C站,旨在资助用户更轻松地找到、利用和管理AI和深度学习项目所需的各种工具、数据集和模型。
https://i-blog.csdnimg.cn/blog_migrate/826ff78eb8ece5fe2ebb1b1010e8ddf6.png
2、https://huggingface.co/俗称抱脸,可以直接访问,无需注册就可下载模型
https://i-blog.csdnimg.cn/blog_migrate/b05c056656332e3c33c40c35c791cebb.png
3、https://www.liblib.art/这个是国内比较火的模型网站
https://i-blog.csdnimg.cn/blog_migrate/cfecc9de0d09e76aaff5fdde6a435b1f.png
AI绘画SD整合包、各种模型插件、提示词、GPT人工智能学习资料都已经打包好放在网盘中了,有需要的小伙伴文末扫码自行获取。
写在最后

AIGC技术的未来发展前景广阔,随着人工智能技术的不绝发展,AIGC技术也将不绝提高。未来,AIGC技术将在游戏和盘算领域得到更广泛的应用,使游戏和盘算体系具有更高效、更智能、更机动的特性。同时,AIGC技术也将与人工智能技术精密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术精密结合,在更多的领域得到广泛应用。
感爱好的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

https://i-blog.csdnimg.cn/blog_migrate/57ab87362997185fce555d8492ec6bab.jpeg
一、AIGC全部方向的学习路线
AIGC全部方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,包管自己学得较为全面。
https://i-blog.csdnimg.cn/blog_migrate/1b1cab9c91b3aeff41c3bac3310c410e.png
https://i-blog.csdnimg.cn/blog_migrate/d031252fcc8679953d0e75884d94d9cc.png
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
https://i-blog.csdnimg.cn/blog_migrate/bb1138400c89c4f4a35a285518e0d429.png
三、最新AIGC学习笔记
当我学到一定底子,有自己的理解能力的时候,会去阅读一些前辈整理的书籍大概手写的笔记资料,这些笔记具体记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
https://i-blog.csdnimg.cn/blog_migrate/9ed7f683ffa0be9b4c731df22c52e7f6.png
https://i-blog.csdnimg.cn/blog_migrate/316f26c00706b15bae812d4ddf5ee304.png
四、AIGC视频教程合集
观看全面零底子学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从底子到深入,还是很容易入门的。
https://i-blog.csdnimg.cn/blog_migrate/c73dd95b03963edc0f97e15bc2b20bbb.png
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
https://i-blog.csdnimg.cn/blog_migrate/3ff5d36806bf14c4dd8a1fc85ad3e2e5.png
https://i-blog.csdnimg.cn/blog_migrate/57ab87362997185fce555d8492ec6bab.jpeg 若有侵权,请接洽删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: SD好复杂,是不是很糊,一文搞懂Stable Diffusion的各种模型及用户操作界面