IT评测·应用市场-qidao123.com技术社区

标题: AI绘画：Lora模子训练完备流程！ [打印本页]

作者: 饭宝 时间: 2024-8-4 00:48
标题: AI绘画：Lora模子训练完备流程！
整体来说还是比简朴的，搞个别人的模子，搞个提示词就出图了。本日来一个有些难度的，自己训练一个LoRA微调模子。

0. LoRA微调模子是什么？
LoRA的全称是Low-Rank Adaptation of Large Language Models，有专门的论文和开源项目。它紧张办理“大模子”太大，一般人玩不转的问题。
比如GPT-3 175B的参数，有几个人跑得起来呢？Stable Diffusion V1版模子用了150000 个 A100 GPU Hour，也不是个人玩得起的。
把LoRA应用到AI绘画之后，我们就可以用平凡的消费级显卡来微调官方的模子了。

微调的意思，就是原先模子的基础上“夹带私货”。最常见的就是，让模子学习指定的风格大概人物。风格这种可能还是有点抽象，而人物这个就比较直观了。比如默认情况下，AI绘画软件无法画出指定的人物，而通过Lora模子就可以做到这一点。

这样一来，你就可以把自己大概你的宠物大概你的女神投射到AI绘画的模子中，然后通过形貌词，让这个人物“变革多端”。

关于LoRA大概就说这些，更多专业的内容，可以看文末。
下面就开始介绍Lora的具体的训练方法了。开始之前简朴说一下我的环境：

操作系统是Windows11
显卡是 RTX 3060 12G
开源软件 Stable-Diffusion-WebUI

Lora的训练流程，我只管做到简朴又清楚，聊太多概念和用太多工具很容易把人绕晕。
1.软件安装
训练Lora的方法不止一种，我这里选择的是一个叫kohya_ss的项目。这个项目比较独立，整个设计逻辑比较清楚，可以用可视化的方式设置参数，也提供了一些辅助工具，官方提供了详细的视频教程（英文）。
下面就来说一下怎样安装。
安装基础软件：

安装 Python 3.10 记得添加到环境变量。
安装 Git
安装VS环境 Visual Studio xxx redistributable

因为这是基于Python的开源项目，以是Python和git是必备软件。我的公众号里有单独介绍这些软件安装设置的文章，可以翻一翻。
Visual Studio XXX redistributable 是一款浅易实用，功能全面的全新系统运行库。它是Windows系统装机必备组件，包含：C Runtime (CRT)，Standard C++，MFC，C++ AMP，OpenMP等，提供了强大而机动的开辟环境支持，让电脑内没有任何无用垃圾步伐，同时它还能够办理各种软件运行不了的问题。（摘抄自网络）。
基础环境安装完成之后就可以开始安装和设置kohya_ss了。
克隆项目然后运行安装脚本

git clone https://github.com/bmaltais/kohya_ss.git``cd kohya_ss``.\setup.bat

复制代码

脚本会主动安装依赖，安装完成后会有一些设置选项，不确定就不要启动。启动了背面会出现很多问题，导致整个流程卡住了。因为这里用到了git和github，以是需要你本地环境能访问国际互联网。大概租一个通外网的GPU服务器。
安装CUDNN 8.6 （可选）
安装CUDNN的目的是提升运算速率。
先通过下面的地点下载Cudnn文件。

https://b1.thefileditch.ch/mwxKTEtelILoIbMbruuM.zip

复制代码

然后放到kohya_ss项目的根目次下，然后运行下面的脚本。

.\venv\Scripts\activate``python .\tools\cudann_1.8_install.py

复制代码

启动软件
设置完成之后，就可以启动软件了，输入命令：

gui.bat --listen 127.0.0.1 --server_port 7860 --inbrowser --share

复制代码

大概到文件夹里找到gui.bat 双击启动。

把URL复制到欣赏器，就可以看到界面了。
2.素材准备和预处理
所有的模子训练都遵循一个最根本的原理：好进好出。喂得素材好，训练的模子自然好。喂的是垃圾，出来的必然也是垃圾。以是第一步，就是把素材整好了。
素材处理呢，实在也分三个小步调。
a.找素材
b.切素材
c.生成对应的关键词
素材可以通过不同渠道获取，比如最简朴粗暴的方式就是直接在百度图片里面搜索。然后选择高清，大概大尺寸，特大尺寸。点进去之后看看有没有套图。
也可以直接去一些壁纸网站大概专门晒图的网站。比如糖堆，花瓣，Pinterest, Instagram…

图片的最根本要求是，清楚，清楚，清楚。其次，不要太单一。
图片比例，并没有强制要求。发起用1:1大概其他固定的比例去切。
图片数量方面，一般来说是准备个几十张的样子。太多了整理起来就比较费时间，训练时长也会边长长，训练不充分可能就没那么像。太少就会过拟合，不容易产生变革，形貌词一改可能就不像了。

从经验来看，聚焦半身大概头部更容易训练，更容易出稳固的效果，除了主体之外，背景只管简朴，减少干扰。

同一个明星的照片实在也是千差万别，有时候甚至P的都不像了一个人了，最好是能找到样貌比较稳固一连的素材。
找到素材之后，你可以用专业的工具举行裁剪。也可以直接用QQ的截图功能。
比如用Birme来处理：

我这里就遵循能简朴就简朴的原则，直接用QQ截图，也没有严格1:1 。就是切了个大概，把主体切出来。
图片预处理完成之后，需要创建一个专门的训练文件夹。我是在kohya_ss的根目次创建一个名叫train的文件，然后在这个文件下面又创建一个叫Dilireba的文件夹。

里面又分别创建了如下的文件夹：
image : 图片放在这里。
log：训练记录
model：模子保存路径
dilireba.json：设置文件。
image文件夹里面不是直接放图片，而是还有一个子文件夹，名称大概是这样100_dilireba。所有图片这放在这个子文件里面。这里的100不是任意写的，会直接影响训练的步数和效果。
创建好文件，将处理好的图片放在100_dilireba里面，然后就要做关键词生成了。
在网页上找到Utilities->Captioning->BLIP Captioning。

这里只要设置两个选项。
Image folder to caption : 图片文件夹所在路径。
Prefix to add to BLIP caption : 生成提示词的前缀，训练完成之后可以用在提示词中，唤醒大概加能人物特性。
设置完成之后点击“Caption images” 开始处理。第一次处理应该是需要在线下载一些模子，稍微等待一下。点击按钮之后，界面上没有任何提示，但是在命令行窗口中会有具体的表现。
处理完成之后，在图片文件里面，会多出同名的txt文件。

打开文件之后，可以看到雷同的笔墨形貌“dilireba a woman in a black dress with a red lipstick”。作为简朴的练手，我们不需要修改任何东西。如果你要提升效果，可以手动参加更加详细，更加精准的形貌。
3.模子参数设置和训练
颠末上面的处理，素材已经搞定了。接下来就是设置训练参数。如果你已经有参数设置文件，可以直接通过点击Open按钮来导入。
参数设置紧张分成了3部分。
第一部分是：预训练模子设置。

Lora的训练需要基于尺度的SDW模子（Checkpoint），点击Source model选项卡之后就可以举行设置。
先将④处的模子快速选择（Model Quick Pick）设置成自定义（Custom），这里也可以用预设的V1.5,V2.1。但是使用这些预设模子，会需要很长的时间在线下载，而且会占据巨大的C盘空间，不是很推荐。
然后在左边③这里选择具体的本地模子，我这里用的是恰当亚洲人的chilloutmix模子。通过点击输入框背面的文件图标，找到具体的模子文件就可以了。
然后右边⑤处的模子保存格式选择safetensors。
第二部分是：文件夹设置。

在素材处理的步调中，我们已经创建好了具体的文件。这里只需要通过右边的文件夹小图标，选中具体的文件夹就好了。
①Image folder 选择 image 文件夹
②Output folder 选择 model 文件夹
③Logging folder 选择 log 文件夹
④Model output name ，输入一个便于影象的英文名字，这个名字就是最终生成的模子的名字。我风俗用主体+版本+迭代次数来定名。
第三部分是：训练参数设置。
这里的参数非常多，一般对于这种情况，我们都遵循一个根本原则：“对于新手来说，默认设置就是最佳设置”。
你可以完全不做任何设置，就开始训练了。

我的部分参数设置如上图。
网上普遍的教程都是把批量大小（Train batch size）改成了2 。
设置一个种子（Seed）比如1234。
学习率（Learning rate）0.0001
Text Encoder学习率 5e-5
Unet学习率 0.0001
Network : 128和128
模子像素：512x512

参数设置完成之，点击底部的训练按钮①就可以开始训练了。
点击训练按钮之后，界面上没有任何变革，来到命令行窗口会看到一长串命令。

这个界面会卡一段时间，然后跳出很多英文，最后停顿在下面的界面。

这里会表现最终需要训练的步数（Step）。Step的值即是图片数量乘以文件中设置的数字，然后除以2 。训练的长短紧张却决于单步的时间和总的步数。
关于多少步才比较好的问题，官方教程演示的时候是用了800。但是这个这个数值仅供参考。不同的数据会有不同，比如我后来整理一个图片比较多的数据集，跑了几万步，似乎也还有提升的空间。
具体的训练情况，可以通过log来检察。点击上面②处的Start TensorBoard 可以启动一个服务。

打开后可以看到具体的Loss变革情况。简朴的来说loss慢慢降低就是对的。如果Loss根本没啥变革，训练下去也没太大意义了。
4.模子应用
搞了那么久终于可以用了。
lora模子的使用，我们之前的文章里面已经有详细的介绍了，这里就简朴的演示一下。当lora训练结束之后，会在对应的model文件下面生成模子文件。
比如下图：

将图中的Lora模子文件拷贝到Stable-Diffusion-WebUI的对应路路径下。

然后启动AI绘画软件webui 。

然后选择好模子，输入关键词，选择对应的lora，然后点击生成即可。

刚开始不要加任何复杂的关键词，只用最基础的，比如 “a woman dilireba” 然后加上我们自己训练lora。关于Lora字符串，你可以直接输入，也可以通过图中圆圈处找到对应的Lora点击一下导入。导入的时候最右侧的参数默认为1，需要修改一下，改成0.7大概0.8。
如果Lora练的还可以，这个时候出来的图片应该是相识度比较高的。然后就可以在这个基础词语上做一些变革了，比如加一个“wearing a suit” （穿着西装）就可以得到下面的图片了。

如果出图俯角符合预期，这个Lora训练也就算是成功了。如果不满意，就要回过头去调整素材和参数了。现在的AI绘画，并不是每次出图都完善的，需要多少刷几次，多试几个关键词才能找到比较满意的效果。
到这里Lora部分的内容就全部写完了，拖拖拉拉拖了很久了，终于了了一个事儿。基于Lora这种特性，可以自己玩，也可以做成在线产物。比如之前说过的“达芬奇”网站就是把这个过程给集成和简化了。
固然我已经只管把过程都写出来了，但是不同的基础的人担当程度肯定不一样。厉害的人觉得太简朴，对这个不太熟悉的可能觉得有点复杂。
确实，从零开始话，这里面还是有挺多东西的。
整个流程也还有无数的细节可以优化：
比如具体的安装过程，非常排除。
比如图片筛选，裁剪，修复。
比如关键词生成的多种方式和优化方法。
比如模子训练参数的调整。
考虑到这些细致的问题专业性比较强，研究需要时间，写起来非常麻烦，写了也不会有多少阅读量，我就不在公开渠道发布了。我会慢慢更新在我的知识星球Tonyhub里面。本日用的素材，参数设置文件，最终Lora模子也会整理好发在里面。

热爱研究的朋侪，也完全可以自己去查资料研究，我把相关的连接整理好放在我的网盘中了，有需要的小伙伴扫码自行获取噢！
写在最后

AIGC技能的未来发展远景广阔，随着人工智能技能的不断发展，AIGC技能也将不断提高。未来，AIGC技能将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更机动的特性。同时，AIGC技能也将与人工智能技能紧密联合，在更多的领域得到广泛应用，对步伐员来说影响至关紧张。未来，AIGC技能将继承得到提高，同时也将与人工智能技能紧密联合，在更多的领域得到广泛应用。
感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模子插件，具体看下方。

一、AIGC所有方向的学习路线
AIGC所有方向的技能点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，包管自己学得较为全面。

二、AIGC必备工具
工具都帮大家整理好了，安装就可直接上手！

三、最新AIGC学习条记
当我学到肯定基础，有自己的理解能力的时候，会去阅读一些前辈整理的册本大概手写的条记资料，这些条记详细记录了他们对一些技能点的理解，这些理解是比较独到，可以学到不一样的思路。

四、AIGC视频教程合集
观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例
纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到现实当中去，这时候可以搞点实战案例来学习。

若有侵权，请接洽删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)