ToB企服应用市场:ToB评测及商务社交产业平台

标题: Datawhale X 魔搭 AI夏令营-AIGC文生图方向Task3条记 [打印本页]

作者: 干翻全岛蛙蛙    时间: 2025-1-9 20:38
标题: Datawhale X 魔搭 AI夏令营-AIGC文生图方向Task3条记
#目录#

一、ComfyUI安装及实践

                (一)什么是ComfyUI

                (二)ComfyUI焦点模块

                (三)ComfyUI图片天生流程

                (四)ComfyUI的优势

                (五)20分钟速通安装ComfyUI

                (六)浅尝ComfyUI工作流

二、LoRA安装及实践

                (一)什么是Lora微调

                (二)LoRA微调的原理

                (三)LoRA微调的优势

                (四)LoRA微调代码分析

                (五)UNet、VAE和文本编码器的协作关系

三、自学资源总计


一、ComfyUI安装及实践

(一)什么是ComfyUI

GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。
ComfyUI 是GUI的一种,是基于节点工作的用户界面,重要用于操纵图像的天生技术,ComfyUI 的特殊之处在于它采用了一种模块化的计划,把图像天生的过程分解成了许多小的步骤,每个步骤都是一个节点。这些节点可以毗连起来形成一个工作流程,这样用户就可以根据需要定制本身的图像天生过程。
(二)ComfyUI焦点模块

焦点模块由模型加载器、提示词管理器、采样器、解码器。
模型加载器:Load Checkpoint用于加载基础的模型文件,包含了Model、CLIP、VAE三部门
CLIP模块将文本类型的输入变为模型可以明确的latent space embedding作为模型的输入
解码器:VAE模块的作用是将Latent space中的embedding解码为像素级别的图像

采样器:用于控制模型天生图像,不同的采样取值会影响终极输出图像的质量和多样性。采样器可以调节天生过程的速率和质量之间的均衡。
Stable Diffusion的基本原理
通过降噪的方式(如完全的噪声图像),将一个原本的噪声信号变为无噪声的信号(如人可以明确的图像)。其中的降噪过程涉及到多次的采样。采样的系数在KSampler中设置: 
1)seed:控制噪声产生的随机种子 
2)control_after_generate:控制seed在每次天生后的变化 
3)steps:降噪的迭代步数,越多则信号越精准,相对的天生时间也越长 
4)cfg:classifier free guidance决定了prompt对于终极天生图像的影响有多大。更高的值代表更多地展现prompt中的形貌。 
5)denoise: 多少内容会被噪声覆盖 sampler_name、scheduler:降噪参数。
(三)ComfyUI图片天生流程


(四)ComfyUI的优势

1)模块化和机动性:ComfyUI 提供了一个模块化的体系,用户可以通过拖放不同的模块来构建复杂的工作流程。这种机动性答应用户根据本身的需求自由组合和调解模型、输入、输出、和其他处置惩罚步骤。
2)可视化界面:ComfyUI 提供了直观的图形界面,使得用户能够更清晰地明确和操纵复杂的 AI 模型和数据流。这对没有编程背景的用户特殊有资助,使他们能够轻松构建和管理工作流程。
3)多模型支持:ComfyUI 支持多个不同的天生模型,用户可以在同一平台上集成和切换使用不同的模型,从而实现更广泛的应用场景。
4)调试和优化:通过其可视化界面,ComfyUI 使得调试天生过程变得更简单。用户可以轻松地追踪数据流,识别并解决题目,从而优化天生结果。
5)开放和可扩展:ComfyUI 是一个开源项目,具有高度的可扩展性。开辟者可以根据需要编写新的模块或插件,扩展体系功能,并根据项目需求进行定制。
6)用户友好性:尽管其功能强大,但 ComfyUI 仍然保持了用户友好性,即使对于复杂使命,也能以相对简单的方式完成,使其成为天生式 AI 工作流程管理的有力工具。
(五)20分钟速通安装ComfyUI
依旧选择使用魔搭社区提供的Notebook免费的GPU算力体验来体验ComfyUI。
step1 :选择启动环境(大概2-3min)

step2 :输入代码进行安装
  1. git lfs install
  2. git clone https://www.modelscope.cn/datasets/maochase/kolors_test_comfyui.git
  3. mv kolors_test_comfyui/* ./
  4. rm -rf kolors_test_comfyui/
  5. mkdir -p /mnt/workspace/models/lightning_logs/version_0/checkpoints/
  6. mv epoch=0-step=500.ckpt /mnt/workspace/models/lightning_logs/version_0/checkpoints/   
复制代码

step3 :进入安装文件进行安装(大概15-20min)


step4 :复制链接进行访问
当实行到最后一个节点的内容输出了一个访问的链接的时候,复制链接到欣赏器中访问

(六)浅尝ComfyUI工作流
  1.       
  2. {
  3.   "last_node_id": 15,
  4.   "last_link_id": 18,
  5.   "nodes": [
  6.     {
  7.       "id": 11,
  8.       "type": "VAELoader",
  9.       "pos": [
  10.         1323,
  11.         240
  12.       ],
  13.       "size": {
  14.         "0": 315,
  15.         "1": 58
  16.       },
  17.       "flags": {},
  18.       "order": 0,
  19.       "mode": 0,
  20.       "outputs": [
  21.         {
  22.           "name": "VAE",
  23.           "type": "VAE",
  24.           "links": [
  25.             12
  26.           ],
  27.           "shape": 3
  28.         }
  29.       ],
  30.       "properties": {
  31.         "Node name for S&R": "VAELoader"
  32.       },
  33.       "widgets_values": [
  34.         "sdxl.vae.safetensors"
  35.       ]
  36.     },
  37.     {
  38.       "id": 10,
  39.       "type": "VAEDecode",
  40.       "pos": [
  41.         1368,
  42.         369
  43.       ],
  44.       "size": {
  45.         "0": 210,
  46.         "1": 46
  47.       },
  48.       "flags": {},
  49.       "order": 6,
  50.       "mode": 0,
  51.       "inputs": [
  52.         {
  53.           "name": "samples",
  54.           "type": "LATENT",
  55.           "link": 18
  56.         },
  57.         {
  58.           "name": "vae",
  59.           "type": "VAE",
  60.           "link": 12,
  61.           "slot_index": 1
  62.         }
  63.       ],
  64.       "outputs": [
  65.         {
  66.           "name": "IMAGE",
  67.           "type": "IMAGE",
  68.           "links": [
  69.             13
  70.           ],
  71.           "shape": 3,
  72.           "slot_index": 0
  73.         }
  74.       ],
  75.       "properties": {
  76.         "Node name for S&R": "VAEDecode"
  77.       }
  78.     },
  79.     {
  80.       "id": 14,
  81.       "type": "KolorsSampler",
  82.       "pos": [
  83.         1011,
  84.         371
  85.       ],
  86.       "size": {
  87.         "0": 315,
  88.         "1": 222
  89.       },
  90.       "flags": {},
  91.       "order": 5,
  92.       "mode": 0,
  93.       "inputs": [
  94.         {
  95.           "name": "kolors_model",
  96.           "type": "KOLORSMODEL",
  97.           "link": 16
  98.         },
  99.         {
  100.           "name": "kolors_embeds",
  101.           "type": "KOLORS_EMBEDS",
  102.           "link": 17
  103.         }
  104.       ],
  105.       "outputs": [
  106.         {
  107.           "name": "latent",
  108.           "type": "LATENT",
  109.           "links": [
  110.             18
  111.           ],
  112.           "shape": 3,
  113.           "slot_index": 0
  114.         }
  115.       ],
  116.       "properties": {
  117.         "Node name for S&R": "KolorsSampler"
  118.       },
  119.       "widgets_values": [
  120.         1024,
  121.         1024,
  122.         1000102404233412,
  123.         "fixed",
  124.         25,
  125.         5,
  126.         "EulerDiscreteScheduler"
  127.       ]
  128.     },
  129.     {
  130.       "id": 6,
  131.       "type": "DownloadAndLoadKolorsModel",
  132.       "pos": [
  133.         201,
  134.         368
  135.       ],
  136.       "size": {
  137.         "0": 315,
  138.         "1": 82
  139.       },
  140.       "flags": {},
  141.       "order": 1,
  142.       "mode": 0,
  143.       "outputs": [
  144.         {
  145.           "name": "kolors_model",
  146.           "type": "KOLORSMODEL",
  147.           "links": [
  148.             16
  149.           ],
  150.           "shape": 3,
  151.           "slot_index": 0
  152.         }
  153.       ],
  154.       "properties": {
  155.         "Node name for S&R": "DownloadAndLoadKolorsModel"
  156.       },
  157.       "widgets_values": [
  158.         "Kwai-Kolors/Kolors",
  159.         "fp16"
  160.       ]
  161.     },
  162.     {
  163.       "id": 3,
  164.       "type": "PreviewImage",
  165.       "pos": [
  166.         1366,
  167.         468
  168.       ],
  169.       "size": [
  170.         535.4001724243165,
  171.         562.2001106262207
  172.       ],
  173.       "flags": {},
  174.       "order": 7,
  175.       "mode": 0,
  176.       "inputs": [
  177.         {
  178.           "name": "images",
  179.           "type": "IMAGE",
  180.           "link": 13
  181.         }
  182.       ],
  183.       "properties": {
  184.         "Node name for S&R": "PreviewImage"
  185.       }
  186.     },
  187.     {
  188.       "id": 12,
  189.       "type": "KolorsTextEncode",
  190.       "pos": [
  191.         519,
  192.         529
  193.       ],
  194.       "size": [
  195.         457.2893696934723,
  196.         225.28656056301645
  197.       ],
  198.       "flags": {},
  199.       "order": 4,
  200.       "mode": 0,
  201.       "inputs": [
  202.         {
  203.           "name": "chatglm3_model",
  204.           "type": "CHATGLM3MODEL",
  205.           "link": 14,
  206.           "slot_index": 0
  207.         }
  208.       ],
  209.       "outputs": [
  210.         {
  211.           "name": "kolors_embeds",
  212.           "type": "KOLORS_EMBEDS",
  213.           "links": [
  214.             17
  215.           ],
  216.           "shape": 3,
  217.           "slot_index": 0
  218.         }
  219.       ],
  220.       "properties": {
  221.         "Node name for S&R": "KolorsTextEncode"
  222.       },
  223.       "widgets_values": [
  224.         "cinematic photograph of an astronaut riding a horse in space |\nillustration of a cat wearing a top hat and a scarf  |\nphotograph of a goldfish in a bowl |\nanime screencap of a red haired girl",
  225.         "",
  226.         1
  227.       ]
  228.     },
  229.     {
  230.       "id": 15,
  231.       "type": "Note",
  232.       "pos": [
  233.         200,
  234.         636
  235.       ],
  236.       "size": [
  237.         273.5273818969726,
  238.         149.55464588512064
  239.       ],
  240.       "flags": {},
  241.       "order": 2,
  242.       "mode": 0,
  243.       "properties": {
  244.         "text": ""
  245.       },
  246.       "widgets_values": [
  247.         "Text encoding takes the most VRAM, quantization can reduce that a lot.\n\nApproximate values I have observed:\nfp16 - 12 GB\nquant8 - 8-9 GB\nquant4 - 4-5 GB\n\nquant4 reduces the quality quite a bit, 8 seems fine"
  248.       ],
  249.       "color": "#432",
  250.       "bgcolor": "#653"
  251.     },
  252.     {
  253.       "id": 13,
  254.       "type": "DownloadAndLoadChatGLM3",
  255.       "pos": [
  256.         206,
  257.         522
  258.       ],
  259.       "size": [
  260.         274.5334274291992,
  261.         58
  262.       ],
  263.       "flags": {},
  264.       "order": 3,
  265.       "mode": 0,
  266.       "outputs": [
  267.         {
  268.           "name": "chatglm3_model",
  269.           "type": "CHATGLM3MODEL",
  270.           "links": [
  271.             14
  272.           ],
  273.           "shape": 3
  274.         }
  275.       ],
  276.       "properties": {
  277.         "Node name for S&R": "DownloadAndLoadChatGLM3"
  278.       },
  279.       "widgets_values": [
  280.         "fp16"
  281.       ]
  282.     }
  283.   ],
  284.   "links": [
  285.     [
  286.       12,
  287.       11,
  288.       0,
  289.       10,
  290.       1,
  291.       "VAE"
  292.     ],
  293.     [
  294.       13,
  295.       10,
  296.       0,
  297.       3,
  298.       0,
  299.       "IMAGE"
  300.     ],
  301.     [
  302.       14,
  303.       13,
  304.       0,
  305.       12,
  306.       0,
  307.       "CHATGLM3MODEL"
  308.     ],
  309.     [
  310.       16,
  311.       6,
  312.       0,
  313.       14,
  314.       0,
  315.       "KOLORSMODEL"
  316.     ],
  317.     [
  318.       17,
  319.       12,
  320.       0,
  321.       14,
  322.       1,
  323.       "KOLORS_EMBEDS"
  324.     ],
  325.     [
  326.       18,
  327.       14,
  328.       0,
  329.       10,
  330.       0,
  331.       "LATENT"
  332.     ]
  333.   ],
  334.   "groups": [],
  335.   "config": {},
  336.   "extra": {
  337.     "ds": {
  338.       "scale": 1.1,
  339.       "offset": {
  340.         "0": -114.73954010009766,
  341.         "1": -139.79705810546875
  342.       }
  343.     }
  344.   },
  345.   "version": 0.4
  346. }
复制代码

下面是我本身调解关键词和数据后天生的一些AI生图作品



二、LoRA安装及实践

(一)什么是Lora微调

LoRA (Low-Rank Adaptation) 微调是一种用于在预训练模型上进行高效微调的技术。它可以通过高效且机动的方式实现模型的个性化调解,使其能够适应特定的使命或范畴,同时保持良好的泛化能力和较低的资源斲丧。这对于推动大规模预训练模型的实际应用至关重要。
(二)LoRA微调原理

LoRA通过在预训练模型的关键层中添加低秩矩阵来实现。这些低秩矩阵通常被计划成具有较低维度的参数空间,这样它们就可以在不改变模型整体结构的环境下进行微调。在训练过程中,只有这些新增的低秩矩阵被更新,而原始模型的大部门权重保持稳固。
(三)LoRA微调的优势

1)快速适应新使命:在特定范畴有少量标注数据的环境下,也可以有效地对模型进行个性化调解,可以迅速适应新的范畴或特定使命。
2)保持泛化能力:LoRA通过微调模型的一部门,有助于保持模型在未见过的数据上的泛化能力,同时还能学习到特定使命的知识。
3)资源效率:LoRA旨在通过仅微调模型的部门权重,而不是整个模型,从而淘汰所需的计算资源和存储空间。
(四)LoRA微调代码分析

  1. import os
  2. cmd = """
  3. python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \ # 选择使用可图的Lora训练脚本DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py
  4.   --pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \ # 选择unet模型
  5.   --pretrained_text_encoder_path models/kolors/Kolors/text_encoder \ # 选择text_encoder
  6.   --pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \ # 选择vae模型
  7.   --lora_rank 16 \ # lora_rank 16 表示在权衡模型表达能力和训练效率时,选择了使用 16 作为秩,适合在不显著降低模型性能的前提下,通过 LoRA 减少计算和内存的需求
  8.   --lora_alpha 4.0 \ # 设置 LoRA 的 alpha 值,影响调整的强度
  9.   --dataset_path data/lora_dataset_processed \ # 指定数据集路径,用于训练模型
  10.   --output_path ./models \ # 指定输出路径,用于保存模型
  11.   --max_epochs 1 \ # 设置最大训练轮数为 1
  12.   --center_crop \ # 启用中心裁剪,这通常用于图像预处理
  13.   --use_gradient_checkpointing \ # 启用梯度检查点技术,以节省内存
  14.   --precision "16-mixed" # 指定训练时的精度为混合 16 位精度(half precision),这可以加速训练并减少显存使用
  15. """.strip()
  16. os.system(cmd) # 执行可图Lora训练   
复制代码
(五)UNet、VAE和文本编码器的协作关系

UNet:负责根据输入的噪声和文本条件天生图像。在Stable Diffusion模型中,UNet吸取由VAE编码器产生的噪声和文本编码器转换的文本向量作为输入,并猜测去噪后的噪声,从而天生与文本形貌相符的图像
VAE:天生模型,用于将输入数据映射到潜伏空间,并从中采样以天生新图像。在Stable Diffusion中,VAE编码器首天赋生带有噪声的潜伏表示,这些表示随后与文本条件一起输入到UNet中
文本编码器:将文本输入转换为模型可以明确的向量表示。在Stable Diffusion模型中,文本编码器使用CLIP模型将文本提示转换为向量,这些向量与VAE天生的噪声一起输入到UNet中,指导图像的天生过程

三、自学资源总结

(一)公开的数据平台

1 )ImageNet:包含数百万张图片,广泛用于分类使命,也可以用于天生使命。
2 )Open Images:由Google维护,包含数千万张带有标签的图片。
3 )Flickr:特殊是Flickr30kK和Flickr8K数据集,常用于图像形貌使命。
4 )CelebA:专注于人脸图像的数据集。
5 )LSUN (Large-scale Scene Understanding):包含各种场景种别的大规模数据集。
(二)自学平台

1 )在魔搭使用ComfyUI,玩转AIGC!
2 )ComfyUI的官方地址
3 )ComfyUI官方树模
4 )别人的基础工作流树模
5 )工作流分享网站
6 )保举一个比较好的comfyui的github仓库网站

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4