用 LoRA 微调 Stable Diffusion:拆开炼丹炉,动手实现你的第一次 AI 绘画
总得拆开炼丹炉看看是什么样的。这篇文章将带你从代码层面一步步实现 AI 文本生成图像(Text-to-Image)中的 LoRA 微调过程,你将:[*]相识 Trigger Words(触发词)到底是什么,以及它们如何影响生成结果。
[*]掌握 LoRA 微调的基本原理。
[*]学习数据集的准备与布局,并知道如何根据需求定制自己的数据集。
[*]明白 Stable Diffusion 模子的微调步骤。
[*]明白在画图界面(UI)下到底发生了什么。
[*]利用代码实现 AI 绘画。
假如你想制作属于自己的数据集,最好遵循以下建议:
[*]至少准备 20 张图片:想学到的概念越复杂就必要越多的图片。你可以实验将样例数据集的图片数量减少到 20 张,看看结果会有什么变化。
[*]裁剪图片:建议对图片进行裁剪,固然你也可以不裁剪,假如你不寻求结果的话。这里会主动 resize 到自界说的分辨率。
与其花费大量时间去调参,更优的选择是处理好你的数据集和 Prompts。固然,这两件事变可以同步进行。
留意,当前文章利用的是天然语言标注(而非 Tag)。固然,你也可以利用 Tag,这两种方式本质上是同等的。
同时,假如你对深度学习有所相识,那么代码中的一切,都将是你曾经见过的内容翻版,没有什么新的,除了 LoRA。另外,这篇文章也为生成式人工智能导论课程中 HW10: Stable Diffusion Fine-tuning 提供中文引导。所以,我们将同步利用演员 Brad Pitt(布拉德·皮特)的图片作为训练集,共计一百张。
代码文件下载:镜像交互版 | 精简学习版 |
页:
[1]