论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
“Datawhale X 魔搭” AI夏令营第四期:AIGC方向——Tas ...
“Datawhale X 魔搭” AI夏令营第四期:AIGC方向——Task2&Task3 ...
半亩花草
论坛元老
|
2024-9-16 12:32:48
|
显示全部楼层
|
阅读模式
楼主
主题
1865
|
帖子
1865
|
积分
5595
背景介绍
AIGC技能
AIGC(AI-Generated Content)是指基于生成对抗网络、大型预训练模型等人工智能的技能方法,通过已有数据的学习和辨认,以适当的泛化能力生成相干内容的技能。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。
Deepfake技能
Deepfake是一种利用人工智能技能生成的伪造媒体,特殊是视频和音频,它们看起来或听起来非常真实,但实际上是由盘算机生成的。这种技能通常涉及到深度学习算法,特殊是生成对抗网络(GANs),它们能够学习真实数据的特征,并生成新的、逼真的数据。
工具箱合集
此次角逐内容是,参赛者需在可图Kolors 模型的基础上,基于LoRA模型生成 8 张图片构成连贯故事,故事内容可自定义,风格不限,同时要保证美感度及连贯性。 与之前活动差别的是,第二期CV图像方向任务是检测图像是否为Deepfake图像,而此次第四期AIGC方向的任务是基于模型生成AI图像。
将教程中的常用链接如下,正常利用的条件是已经按要求完成相应的注册与申请算力资源。
Datawhale速通教程:Datawhale (linklearner.com)
AI云开辟平台(PAI-DSW):我的Notebook · 魔搭社区 (modelscope.cn)
https://modelscope.cn/my/mynotebook/authorization
AI助教(通义千问):
通义tongyi.ai_你的万能AI助手 (aliyun.com)
https://tongyi.aliyun.com/qianwen/魔搭模型库:
魔搭社区 (modelscope.cn)
https://modelscope.cn/models/create?template=text-to-image-lora角逐讨论区:可图Kolors-LoRA风格故事挑战赛_魔搭社区
https://modelscope.cn/brand/view/Kolors?spm=a2c22.12281976.0.0.25381acbkEiZSp&branch=0&tree=11
Task2:baseline精读
1、安装依赖包
!pip install命令来安装Python 包,!pip uninstall命令用来卸载Python 包,
相干依赖包有:Data-Juicer 和 DiffSynth-Studio。
2、数据集下载与预处理
从ModelScope加载一个名为lowres_anime的数据集,并保存图像到指定目次“/mnt/workspace/kolors/data/lora_dataset/train/”。
将数据集中的图像转换为 RGB 模式,并保存到指定目次。
创建包罗图像路径和文本描述的元数据文件 metadata.jsonl。
编写并保存 data_juicer_config.yaml 设置文件,用于后续的数据过滤和处理。
3、用Data-Juicer进行数据处理
利用 dj-process 命令根据设置文件对数据进行过滤和处理,生成 result.jsonl 文件。
读取 result.jsonl 文件中的数据,并将其转换为 Pandas DataFrame,然后保存为 CSV 文件,而且将图片保存到指定文件夹下。
4、模型训练与
图像生成
下载可图模型download_models(["Kolors", "SDXL-vae-fp16-fix"])。
在前面模型的基础上,执行可图Lora微调训练。
加载Lora微调后的模型。
设置正向提示词,反向提示词,执行次数,图片尺寸。
设置随机种子,控制图片是否可以重复生成,并将图像保存为 .jpg 文件。
5、归并图像并保存
将生成的多个图像归并成一个大图像,并调整图片的大小。
ps:在terminal终端,复制epoch=0-step=500.ckpt模型文件,以及所有的jpg图像到指定位置output文件夹中:
mkdir /mnt/workspace/kolors/output & cd
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/*.jpg /mnt/workspace/kolors/output/
复制代码
另外一个快速保存多张图片的方法,点击光标之后按住Shift键,再点击光标,全部选中,再右键Download即可下载指定的文件。
baseline改进
利用通义小助手,修改了自己的提示词,根据生成的图像进行改进,并输出为2行列4图像。
初遇
青年夫君笑脸可掬,手捧布匹,前来与女子生意业务,实则为了靠近她,商讨婚事。
相恋
女子翘首以盼,等候夫君归来,见到他时喜极而泣,两人重逢后欢声笑语不断。
婚姻
占卜显示吉祥,没有不利的预兆,夫君驾车欢迎,女子带着嫁妆,两人步入婚姻殿堂。
辛劳
女子三年来辛劳操持家务,从早忙到晚,没有一刻停歇,展现了她的勤奋和牺牲。
变化
夫君性格反复无常,对待女子的态度时好时坏,不再如从前般专一和温柔。
哀怨
女子静下心来反思这段关系,内心充满悲伤和自我怜悯,意识到自己的处境。
断交
女子下定决心,不再回头,面临夫君的背叛,她选择了放弃和决裂。
新生
女子告诫后来者不要沉溺于爱情,因为夫君可以轻易抽身,而女子一旦深陷此中,便难以自拔,暗示了她正迈向新的生活阶段,学会了独立和自我掩护。
Task3:实战优化
Part1.安装
ComfyUI
插件
ComfyUI
是ComfyUI是一个功能强大、模块化水平高的AIGC图形和视频生成的用户界面和后台。在ComfyUI平台的前端页面上,用户可以基于节点/流程图的界面设计并执行AIGC文生图大概文生视频的pipeline。
他的核心模块由模型加载器、提示词管理器、采样器、解码器。
Part2:Lora微调
import os
cmd = """
python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \ # 选择使用可图的Lora训练脚本DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py
--pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \ # 选择unet模型
--pretrained_text_encoder_path models/kolors/Kolors/text_encoder \ # 选择text_encoder
--pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \ # 选择vae模型
--lora_rank 16 \ # lora_rank 16 表示在权衡模型表达能力和训练效率时,选择了使用 16 作为秩,适合在不显著降低模型性能的前提下,通过 LoRA 减少计算和内存的需求
--lora_alpha 4.0 \ # 设置 LoRA 的 alpha 值,影响调整的强度
--dataset_path data/lora_dataset_processed \ # 指定数据集路径,用于训练模型
--output_path ./models \ # 指定输出路径,用于保存模型
--max_epochs 1 \ # 设置最大训练轮数为 1
--center_crop \ # 启用中心裁剪,这通常用于图像预处理
--use_gradient_checkpointing \ # 启用梯度检查点技术,以节省内存
--precision "16-mixed" # 指定训练时的精度为混合 16 位精度(half precision),这可以加速训练并减少显存使用
""".strip()
os.system(cmd) # 执行可图Lora训练
复制代码
总结与心得
ComfyUI是一款功能强大的AIGC(AI生成内容)平台,它通过直观的节点/流程图界面让非专业职员也能轻松构建复杂的AI生成工作流程。ComfyUI的核心优势在于其模块化设计,用户可以自由组合模型和处理步调,如模型加载器、提示词管理器、采样器和解码器,以顺应各种应用场景。此外,它的可视化界面简化了AI模型的明确和操作,多模型支持增强了应用范围,开放性和可扩展性则促进了社区创新。
在实际应用中,ComfyUI可以用来微调模型,如利用LoRA技能对特定任务进行优化。例如,上述命令行展示了如何利用ComfyUI训练LoRA模型,通过指定预训练的UNet、文本编码器和VAE组件以及设置训练参数来实现。具体来说,UNet根据输入的噪声和文本条件生成图像;VAE将输入数据映射到潜在空间并从中采样生成新图像;文本编码器将文本转换为向量表示,与VAE生成的噪声一起输入到UNet中,指导图像生成过程。
通过ComfyUI的学习和利用,我深刻体会到其在简化复杂AI生成任务方面的价值。即使是初学者,也能通过其直观的设计和丰富的文档快速上手,创造出高质量的内容。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
半亩花草
论坛元老
这个人很懒什么都没写!
楼主热帖
YOLOV5 代码复现以及搭载服务器运行 ...
本周涨粉一倍,我决定再开源一个商超管 ...
APP性能优化
Java集合框架(五)-Collections 和 泛型 ...
安装Python
Spring5——JdbcTemplate笔记
经典Python题目:一个列表或者数组去重 ...
【Redis】BigKey问题
《C++性能优化指南》 linux版代码及原 ...
随机数漫谈
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
Java
快速回复
返回顶部
返回列表