DataWhaleX魔搭AI夏令营第四期AIGC方向task03条记

打印 上一主题 下一主题

主题 1666|帖子 1666|积分 4998

目录
ComfyUI
简介
ComfyUI焦点模块
ComfyUI图片天生流程
上风
速通安装ComfyUI
利用ComfyUI
Lora微调
简介
原理
参数详情
高质量的数据集的准备
明确需求和目标
数据集泉源


task02,我们利用通义千问来大抵了解一下了baseline。
在task03中,我们将要了解文生图的工作流平台工具ComfyUI,来实现一个更加高度定制的文生图。并且,我们要了解一下微调的基本原理及其各种参数,从而到达一个更好的结果。
学习链接:https://linklearner.com/activity/14/10/37
ComfyUI

简介

ComfyUI 是GUI(图形用户界面)的一种,是基于节点工作的用户界面,主要用于操作图像的天生技能,ComfyUI 的特别之处在于它接纳了一种模块化的设计,把图像天生的过程分解成了许多小的步调,每个步调都是一个节点。这些节点可以连接起来形成一个工作流程,这样用户就可以根据必要定制自己的图像天生过程。
ComfyUI焦点模块

焦点模块由模型加载器、提示词管理器、采样器、解码器。详情可以阅读学习链接。
ComfyUI图片天生流程


(来自Datawhale AI 夏令营(第四期)“AIGC”方向的“Task3:进阶上分-实战优化”)

上风

模块化和灵活性:ComfyUI 提供了一个模块化的系统,用户可以通过拖放差异的模块来构建复杂的工作流程。这种灵活性答应用户根据自己的需求自由组合和调整模型、输入、输出、和其他处理惩罚步调。
可视化界面:ComfyUI 提供了直观的图形界面,使得用户能够更清晰地明白和操作复杂的 AI 模型和数据流。这对没有编程背景的用户特别有帮助,使他们能够轻松构建和管理工作流程。
多模型支持:ComfyUI 支持多个差异的天生模型,用户可以在同一平台上集成和切换利用差异的模型,从而实现更广泛的应用场景。
调试和优化:通过其可视化界面,ComfyUI 使得调试天生过程变得更简朴。用户可以轻松地追踪数据流,识别并办理问题,从而优化天生结果。
开放和可扩展:ComfyUI 是一个开源项目,具有高度的可扩展性。开辟者可以根据必要编写新的模块或插件,扩展系统功能,并根据项目需求进行定制。
用户友好性:尽管其功能强大,但 ComfyUI 仍然保持了用户友好性,即使对于复杂任务,也能以相对简朴的方式完成,使其成为天生式 AI 工作流程管理的有力工具。
速通安装ComfyUI

如图,利用魔搭社区提供的Notebook和免费的GPU算力体验来体验ComfyUI。

启动后,新建一个terminal,运行以下代码(下载安装ComfyUI的实验文件和task1中微调完成Lora文件):
  1. git lfs install
  2. git clone https://www.modelscope.cn/datasets/maochase/kolors_test_comfyui.git
  3. mv kolors_test_comfyui/* ./
  4. rm -rf kolors_test_comfyui/
  5. mkdir -p /mnt/workspace/models/lightning_logs/version_0/checkpoints/
  6. mv epoch=0-step=500.ckpt /mnt/workspace/models/lightning_logs/version_0/checkpoints/   
复制代码
运行ComfyUI.ipynb


点击末了出现的链接


到这里ComfyUI可以算安装好了~
利用ComfyUI

加载工作流

实验天生图片

图:

更多有关的学习内容可以阅读学习链接。
Lora微调

简介

LoRA (Low-Rank Adaptation) 微调是一种用于在预训练模型上进行高效微调的技能。它可以通过高效且灵活的方式实现模型的个性化调整,使其能够适应特定的任务或领域,同时保持良好的泛化本领和较低的资源消耗。这对于推动大规模预训练模型的现实应用至关紧张。
原理

LoRA通过在预训练模型的关键层中添加低秩矩阵来实现。这些低秩矩阵通常被设计成具有较低维度的参数空间,这样它们就可以在不改变模型整体结构的情况下进行微调。在训练过程中,只有这些新增的低秩矩阵被更新,而原始模型的大部分权重保持稳定。
参数详情

代码:
  1. import os
  2. cmd = """
  3. python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \ # 选择使用可图的Lora训练脚本DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py
  4.   --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \ # 选择unet模型
  5.   --pretrained_text_encoder_path models/kolors/Kolors/text_encoder \ # 选择text_encoder
  6.   --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \ # 选择vae模型
  7.   --lora_rank 16 \ # lora_rank 16 表示在权衡模型表达能力和训练效率时,选择了使用 16 作为秩,适合在不显著降低模型性能的前提下,通过 LoRA 减少计算和内存的需求
  8.   --lora_alpha 4.0 \ # 设置 LoRA 的 alpha 值,影响调整的强度
  9.   --dataset_path data/lora_dataset_processed \ # 指定数据集路径,用于训练模型
  10.   --output_path ./models \ # 指定输出路径,用于保存模型
  11.   --max_epochs 1 \ # 设置最大训练轮数为 1
  12.   --center_crop \ # 启用中心裁剪,这通常用于图像预处理
  13.   --use_gradient_checkpointing \ # 启用梯度检查点技术,以节省内存
  14.   --precision "16-mixed" # 指定训练时的精度为混合 16 位精度(half precision),这可以加速训练并减少显存使用
  15. """.strip()
  16. os.system(cmd) # 执行可图Lora训练   
复制代码
表明:

(来自Datawhale AI 夏令营(第四期)“AIGC”方向的“Task3:进阶上分-实战优化”)

其中,
UNet:负责根据输入的噪声和文本条件天生图像。在Stable Diffusion模型中,UNet接收由VAE编码器产生的噪声和文本编码器转换的文本向量作为输入,并预测去噪后的噪声,从而天生与文本描述相符的图像
VAE:天生模型,用于将输入数据映射到潜在空间,并从中采样以天生新图像。在Stable Diffusion中,VAE编码器首先天生带有噪声的潜在表示,这些表示随后与文本条件一起输入到UNet中
文本编码器:将文本输入转换为模型可以明白的向量表示。在Stable Diffusion模型中,文本编码器利用CLIP模型将文本提示转换为向量,这些向量与VAE天生的噪声一起输入到UNet中,指导图像的天生过程
高质量的数据集的准备

明确需求和目标

关注应用场景:确定你的模型将被应用到什么样的场景中(比方,艺术风格转换、产品图像天生、医疗影像合成等)。
关注数据范例:你必要什么样的图片?比如是真实世界的照片还是合成图像?是优劣的还是彩色的?是高分辨率还是低分辨率?
关注数据量:思量你的任务应该必要多少图片来支持训练和验证。
数据集泉源

公开的数据平台、利用API或爬虫获取、数据合成、数据增强、购买或定制等。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大号在练葵花宝典

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表