ToB企服应用市场:ToB评测及商务社交产业平台

标题: SD好复杂，是不是很糊，一文搞懂Stable Diffusion的各种模子及用户利用界面 [打印本页]

作者: 何小豆儿在此 时间: 昨天 22:38
标题: SD好复杂，是不是很糊，一文搞懂Stable Diffusion的各种模子及用户利用界面
这篇文章中对 Stable Diffusion 的各个功能做了具体介绍，今天重要是以一秒内就能天生图片的爆炸性模子 SDXL Turbo的发布为契机，对SD的各类根本模子：SD 1.x、SD 2.x、SD 1.5、SDXL 1.0和SDXLTurbo，及利用界面：WebUI、ComfyUI和Fooocus进行具体介绍，一文搞懂他们之间的关系，选择不迷路。

一、SD 根本模子介绍
1、SD 1.x：这是Stable Diffusion的早期版本，重要用于图像天生任务。这里的1.x表示1系列的重要版本，x是一个变量，表示具体的子版本。
2、SD 2.x：这是SD
1.x的后续版本，对模子进行了优化和改进，提高了图像天生质量和速度。同样，2.x表示2系列的重要版本，x是一个变量，表示具体的子版本。
3、SD 1.5：这是一个在SD 1.x根本上进行优化的版本，它在文本到图像天生任务上表现尤为精彩，能够天生更符适用户需求的图像。
4、SDXL 1.0：这是一个在SD 1.5根本上进一步优化的版本，接纳了一种名为“对抗性扩散蒸馏”（Adversarial Diffusion
Distillation，简称ADD）的新技术，使得模子能够在保持高采样保真度的同时实现及时图像天生。
5、SDXL Turbo：它是在SDXL1.0的根本上进行迭代的版本。特点是天生图像的服从非常高，几乎可以做到及时响应。在用户输入完文本提示后，图像就能立刻显示。SDXLTurbo不但速度快，天生的图像质量也非常高，能够精准还原提示文本的描述。得益于其接纳的对抗性扩散蒸馏技术，该技术可以在高质量图像下以1-4个步调对大规模根本图像扩散模子进行采样，同时避免了其他蒸馏方法中常见的失真或模糊题目。存在的范围性：现在它只能天生固定像素的图片，对于一些细节可能表现的不够好，如人的手指、面部表情等，无法完美的展现照片级真实感。现在SDXL
Turbo只能用于学术研究，还未开放商业权限。

直接连着游戏，得到了 2fps 的风格迁移画面

一边输入，一边天生
二、以SD 根本模子进行练习和优化的其他模子
以SD 根本模子进行练习和优化的常用模子介绍：
1、majicMIX
realistic：专门用于天生唯美的人像图片，现在已更新至第七版。融合了多种模子，能够天生具有吸引力的面部特征，并能有用地处置惩罚暗部细节。

2、ChilloutMix：专为天生传神的亚洲人物形象而计划。与majicMIX
realistic类似，ChilloutMix在天生高质量人物图像方面表现精彩。

3、AnythingElse V4：重要天生高质量的二次元和动漫图像。虽然它的风格相对较为单一，但在动漫范畴表现精彩。

4、GuoFeng3：重要用于天生具有中国华丽古风风格的图像。它在古风游戏脚色和场景天生方面具有优势。

5、RongHua：这是另一个国风系列模子，专注于天生具有中国特色的服装、道具和扮装元素。它在国风创作范畴具有较高的评价。

6、Dreamlike-photoreal-2.0：用于天生传神的场景和物品。它在天生高质量的现实天下图像方面具有优势。

在模子选择时，我们并不直接选择SD 1.x、SD 2.x或是SD 1.5这样的根本模子进行绘图，而是选择majicMIX
realistic、ChilloutMix等特定优化模子，重要基于以下缘故原由：
1、针对性优化：像majicMIX
realistic、ChilloutMix这样的模子是在根本模子的根本上进行了针对性的优化和调解，以满足特定范畴或风格的需求。这使得这些模子在天生特定范例图像时的性能更优，例如majicMIX
realistic在天生传神的亚洲人物形象方面，ChilloutMix在天生高质量的二次元和动漫图像方面。
2、更高的专业性和质量：这些特定优化的模子每每在某些方面具有更高的专业性和图像质量。例如，majicMIX
realistic在人物形象的传神度和场景泛化能力上表现精彩，而ChilloutMix则在动漫范畴的图像天生质量上具有优势。
3、更好的用户体验：这些优化模子通常在易用性和用户体验上进行了改进，使得用户能够更方便地天生所需的图像。例如，一些模子可能会提供更多的控制参数，让用户能够更精细地调解天生结果。
4、更广泛的应用场景：这些特定优化模子每每在某些应用场景中具有更广泛的适用性。例如，GuoFeng3和RongHua等国风系列模子在天生中国古风场景和元素时具有优势，而Dreamlike-
photoreal-2.0则在天生传神的场景和物品方面表现精彩。
总之，选择majicMIX
realistic、ChilloutMix等优化模子而不是根本模子的重要缘故原由是为了得到更好的性能、更高的专业性、更广泛的应用场景以及更优的用户体验。这些优化模子在特定范畴和风格上的表现每每优于根本模子，从而使得用户能够更高效地天生满足需求的图像。
三、以SD 根本模子进行练习和优化的模子的定名规则
通常看到的就两种：safetensors和ckpt，此外另有.pt 或 .pth。
1、safetensors是一种模子文件格式，这种格式是专门为StableDiffusion模子计划的，具有较小的文件体积和较快的加载速度。safetensors文件只包罗模子的权重，而不包罗优化器状态或其他信息，通常用于模子的最终版本，当我们只关心模子的性能，而不必要了解练习过程中的具体信息时，这种格式是一个很好的选择。
2、.ckpt：这是一种Checkpoint（检查点）格式的模子文件，用于生存模子的权重和优化器的状态。这种文件格式在练习过程中天生，可以用来恢复练习或调解模子。ckpt模子文件通常较大，因为它们包罗了练习过程中的中间状态。
3、.pt 或.pth：这些文件格式通常用于PyTorch模子，其中.pt表示PyTorch张量（Tensor），而.pth表示PyTorch模子参数。这些文件包罗了模子的权重和结构信息，但不包罗优化器状态。
在选择模子的存储格式时，必要根据利用场景来决定。例如，如果你必要进行模子微调，大概必要在练习过程中得到具体的信息，Checkpoint格式（.ckpt）可能是更好的选择。而对于那些仅必要快速加载和实行模子的场景，safetensors可能是更好的选择。
四、LCM模子介绍
Latent Consistency Models（潜同等性模子）是一个以天生速度为重要亮点的图像天生架构。和必要多步迭代传统的扩散模子（如StableDiffusion）差别，LCM仅用1 -4步即可达到传统模子30步左右的效果。由清华大学交织信息研究院研究生骆思勉和谭亦钦发明，LCM将文生图天生速度提升了5-10倍。（其刚出来，就被上文提到的SDXLTurbo直接碾压，以后偶尔机再具体说）。

3分钟快速渲染：AnimateDiff Vid2Vid + LCM
LCM的一个关键特点是它能在非常短的推理时间内天生图像，使其成为必要快速处置惩罚的应用场景中的宝贵工具。
LCM与稳定扩散（Stable Diffusion）模子兼容，并能加强其性能。它可以集成到稳定扩散的WebUI中，利用户能够轻松访问LCM功能。当利用稳定扩散天生动画时，这种集成特别有益，因为它提高了扩散过程的速度和稳定性。LCM可以在CPU和GPU上运行，为差别硬件能力的用户提供灵活性。
LCM模子通过将无分类器引导（classifier-freeguidance）蒸馏到模子的输入中来工作。这种方法允许利用较少的计算资源并在比传统方法短得多的时间内天生高质量图像。例如，利用A800GPU，LCM可以在CFG规模为w=8且批量大小为4的情况下天生768 x 768分辨率的图像，展示了其服从和性能。

及时图像编辑
此外，LCM已被集成到Diffusers库中，使其对开辟者和研究人员更加易于访问。它支持各种功能，如图像到图像和文本到图像的天生，显示了其在差别图像天生背景下的多功能性。
总的来说，LCM在AI图像天生范畴代表了一个庞大进步，特别是在速度和服从方面。它与稳定扩散模子的集成为及时图像天生和动画制作打开了新的可能性，使其成为各种创意和实际应用中的工具。

Krea.ai及时图像编辑
五、SD 用户界面工具
重要介绍三种：Fooocus、SD WebUI和ComfyUI
1、SD WebUI：
SD WebUI是一个基于Web的界面，用于运行Stable Diffusion模子。它允许用户在欣赏器中输入文本提示，然后天生相应的图像。SDWebUI支持多种功能，如调解模子、图像尺寸、采样步数等。用户可以在WebUI中方便地调解这些参数，以得到满意的图像天生效果。SDWebUI的一个优点是其易于利用，用户无需安装任何额外的软件，只需在欣赏器中打开WebUI页面即可开始利用。

2、ComfyUI：
ComfyUI是一个功能强盛的节点编辑工具，支持Stable Diffusion模子的双模子计算。与SDWebUI相比，ComfyUI提供了更多的自界说选项和灵活性。用户可以通过连接差别的节点来创建工作流，从而实现对图像天生过程的精细控制。ComfyUI支持多种插件，如ADetailer、Controlnet和AnimateDIFF等，这些插件可以进一步扩展ComfyUI的功能。值得注意的是，ComfyUI可以在MacBookPro M1的16GB内存上运行双模子计算，这使得它在肯定程度上具有竞争优势。

3、Fooocus：Fooocus的重要特点是简单易用，用户只需关注提示词的书写，就可以天生高质量的图片。Fooocus的作者是斯坦福大学博士生张吕敏，他对Fooocus进行了大量的优化，使得用户可以忘记全部那些困难的技术参数，只享受人与计算机之间的交互。

总之，Fooocus、SD WebUI和ComfyUI都是基于StableDiffusion模子的AI绘画工具，各自具有差别的特点和优势。Fooocus以其简单易用和高质量的图像天生而受到关注，而SDWebUI和ComfyUI则分别以易用性和灵活性而受到接待。用户可以根据自己的需求和喜欢选择合适的工具。
六、常用模子下载网站
现在比较常见的就是以下三个站点：
1、https://civitai.com/俗称C站，旨在帮助用户更轻松地找到、利用和管理AI和深度学习项目所需的各种工具、数据集和模子。