【Datawhale X 魔搭 AI夏令营第四期-AIGC方向】 Task1条记:跑通baseline

[复制链接]
发表于 2026-2-7 16:29:16 | 显示全部楼层 |阅读模式
媒介

Datawhale的官方速通文档:https://linklearner.com/activity/14/10/24
本篇文章基于官方文档内容举行归纳总结。
跑通代码

Step0:开通阿里云PAI-DSW试用

阿里云PAI-DSW(Data Science Workshop)是一个云端的开发工具平台,提供所需的统统工具和资源来创建和练习AI模子,不消担心你本身的电脑性能是否充足强盛。以是我们第一步须要进入阿里云PAI-DSW官网来开通领取5000算力时,为接下来情况的搭建等后续工作做预备。
链接:阿里云免费试用 - 阿里云


第一次登录的话可以利用付出宝登录,然后举行个人身份验证后再领取试用。
Step1:报名赛事

 赛事链接:https://tianchi.aliyun.com/competition/entrance/532254
利用付出宝登录并实名认证,点击报名参赛,同意协议点击报名即可,记得组建大概到场队伍。
Step2:在魔搭社区创建PAI实例

魔搭社区类似于阿里云PAI-DSW这台性能强盛的主机的操纵体系。你可以在魔搭社区中创建和管理你的项目,举行模子练习等。
链接:https://www.modelscope.cn/my/mynotebook/authorization

点击链接进入页面,按照上图,依次点击“授权ModelScope”→“开通并授权PAI”→“创建实例”,中央步调根据提示走就行

在点击创建实例后的页面,实例任意起个名字,资源规格选第二个,之后就点击下一步、点击创建实例,启动完成后打开实例即可。

如果先前阿里云PAI-DSW试用没有领取乐成则先用可利用魔搭的免费Notebook实例(好比我)

Step3:运行代码

1. 下载baseline文件(约莫须要2分钟)

打开终端,粘贴以下代码,回车运行
  1. git lfs install
  2. git clone https://www.modelscope.cn/datasets/maochase/kolors.git
复制代码


2. 双击右侧kolors进入文件夹,双击打开baseline文件


3. 安装情况,然后重启kernel

安装 Data-Juicer 和 DiffSynth-Studio
Data-Juicer:数据处理处罚和转换工具,旨在简化数据的提取、转换和加载过程
DiffSynth-Studio:高效微调练习大模子工具


4. 调解prompt,设置目的图片风格,依次修改8张图片的形貌(可选)

正向形貌词:你想要天生的图片应该包罗的内容
反向提示词:你不盼望天生的图片的内容

这里我实验复刻魔女的夜宴宁宁线的剧情,修改形貌为:
  1. torch.manual_seed(0)
  2. image = pipe(
  3.     prompt="杰作,高精细,美丽细致的眼睛,细腻的发质,二次元,一个白色长发有呆毛的女孩,一个黑色凌乱头发的男孩,在社团活动室,男孩在一边坐着面无表情地趴在桌子上,女孩坐着和另一个路人女孩讲话,两人穿着蓝色高中校服,桌子上放着一个单单发白光的小瓶子,远景,不看着镜头,",
  4.     negative_prompt="丑陋,变形,嘈杂,低对比度,nsfw,owres,解剖不好,手不好,文本,错误,手指缺失,多余的数字,更少的数字,裁剪,质量最差,低质量,正常质量,jpeg伪影,签名,水印,用户名,模糊,手指缺失、手不好、手臂缺失、长颈,驼背",
  5.     cfg_scale=4,
  6.     num_inference_steps=50, height=1024, width=1024,
  7. )
  8. image.save("1.jpg")
  9. torch.manual_seed(1)
  10. image = pipe(
  11.     prompt="二次元,一个白色长发有呆毛的女孩,戴着黑色魔女帽,穿着黑色魔女服,紫色瞳孔,举起一把白色手枪,神情严肃,周围飘着很多白色发光羽毛,站在教室里,正面,中景",
  12.     negative_prompt="丑陋,变形,嘈杂,低对比度,色情擦边",
  13.     cfg_scale=4,
  14.     num_inference_steps=50, height=1024, width=1024,
  15. )
  16. image.save("2.jpg")
  17. torch.manual_seed(2)
  18. image = pipe(
  19.     prompt="杰作,高精细,美丽细致的眼睛,细腻的发质,二次元,不看着镜头,45°侧面,全身,一个白色长发有呆毛的女孩,一个黑色凌乱头发的男孩,两人穿着蓝色高中校服,两人坐在公园长椅上,闭眼微笑,头靠在一起",
  20.     negative_prompt="丑陋,变形,嘈杂,低对比度,nsfw,owres,解剖不好,手不好,文本,错误,手指缺失,多余的数字,更少的数字,裁剪,质量最差,低质量,正常质量,jpeg伪影,签名,水印,用户名,模糊,手指缺失、手不好、手臂缺失、长颈,驼背",
  21.     cfg_scale=4,
  22.     num_inference_steps=50, height=1024, width=1024,
  23. )
  24. image.save("3.jpg")
  25. torch.manual_seed(5)
  26. image = pipe(
  27.     prompt="杰作,高精细,美丽细致的眼睛,细腻的发质,二次元,一个白色长发有呆毛的女孩,带着黑色魔女帽,穿着黑色魔女服,一个黑色凌乱头发的男孩,穿着蓝色高中校服,两个人拥抱在一起,相拥而泣,女孩身体模糊半透明,女孩手里拿着一个白色水晶,在社团活动室里,侧面,中景,不看着镜头",
  28.     negative_prompt="丑陋,变形,嘈杂,低对比度",
  29.     cfg_scale=4,
  30.     num_inference_steps=50, height=1024, width=1024,
  31. )
  32. image.save("4.jpg")
  33. torch.manual_seed(0)
  34. image = pipe(
  35.     prompt="杰作,高精细,美丽细致的眼睛,细腻的发质,二次元,一个白色长发有呆毛的小女孩,小学生,穿着可爱的睡衣,神情呆滞失落,坐在粉色的床上,在粉红色的房间里,看着争吵的父母,鸭子坐,模糊,远景",
  36.     negative_prompt="丑陋,变形,嘈杂,低对比度,nsfw,owres,解剖不好,手不好,文本,错误,手指缺失,多余的数字,更少的数字,裁剪,质量最差,低质量,正常质量,jpeg伪影,签名,水印,用户名,模糊,手指缺失、手不好、手臂缺失、长颈,驼背",
  37.     cfg_scale=4,
  38.     num_inference_steps=50, height=1024, width=1024,
  39. )
  40. image.save("5.jpg")
  41. torch.manual_seed(1)
  42. image = pipe(
  43.     prompt="二次元,在拥挤的学校走廊,一个白色长发的女孩,穿着蓝色高中校服,神情悲伤失落,女生看向男生",
  44.     negative_prompt="丑陋,变形,嘈杂,低对比度,nsfw,owres,解剖不好,手不好,文本,错误,手指缺失,多余的数字,更少的数字,裁剪,质量最差,低质量,正常质量,jpeg伪影,签名,水印,用户名,模糊,手指缺失、手不好、手臂缺失、长颈,驼背",
  45.     cfg_scale=4,
  46.     num_inference_steps=50, height=1024, width=1024,
  47. )
  48. image.save("6.jpg")
  49. torch.manual_seed(7)
  50. image = pipe(
  51.     prompt="杰作,高精细,美丽细致的眼睛,细腻的发质,二次元,一个白色长发有呆毛的女孩,一个黑色凌乱头发的男孩,两人穿着蓝色高中校服,在社团活动室,男孩摔倒躺在地上,手碰到一个发光的白色水晶,女孩坐在很远的一边,神情惊讶,俯视视角,中景",
  52.     negative_prompt="nsfw,owres,解剖不好,手不好,文本,错误,手指缺失,多余的数字,更少的数字,裁剪,质量最差,低质量,正常质量,jpeg伪影,签名,水印,用户名,模糊,手指缺失、手不好、手臂缺失、长颈,驼背",
  53.     cfg_scale=4,
  54.     num_inference_steps=50, height=1024, width=1024,
  55. )
  56. image.save("7.jpg")
  57. torch.manual_seed(0)
  58. image = pipe(
  59.     prompt="杰作,高精细,美丽细致的眼睛,细腻的发质,二次元,背面,紧紧拥抱在一起,闭眼微笑,眼角有泪花,在社团活动室,白色长发小女孩,一个黑色凌乱头发小男孩,两人穿着蓝色高中校服,",
  60.     negative_prompt="nsfw,owres,解剖不好,手不好,文本,错误,手指缺失,多余的数字,更少的数字,裁剪,质量最差,低质量,正常质量,jpeg伪影,签名,水印,用户名,模糊,手指缺失、手不好、手臂缺失、长颈,驼背",
  61.     cfg_scale=4,
  62.     num_inference_steps=50, height=1024, width=1024,
  63. )
  64. image.save("8.jpg")
复制代码
这里从网上鉴戒了正、反向tag组合
5. 依次序次运行剩余的代码块,点击代码框左上角实行按钮,终极得到图片(约莫须要20分钟)

下面的代码块按照功能紧张分成这几类
1. 利用Data-Juicer处理处罚数据,整理练习数据文件
2. 利用DiffSynth-Studio在底子模子上,利用前面整理好的数据文件举行练习微调
3. 加载练习微调后的模子
4. 利用微调后的模子,天生用户指定的prompt提示词的图片

天生图片效果如下

Step4:微调效果上传魔搭

上传链接:https://www.modelscope.cn/models/create
1.移动效果文件

创建terminal,粘贴如下下令,回车实行
  1. mkdir /mnt/workspace/kolors/output & cd
  2. cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
  3. cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/
复制代码

2. 下载效果文件

双击进入output文件夹,分别下载两个文件到当地

3. 创建并上传模子所需内容

  点击魔搭链接,创建模子,中文名称发起格式:队伍名称-可图Kolors练习-xxxxxx


如许就算创建完成并发布在创空间讨论区了。
4. 来到创空间,查察本身的模子是否发布



5.关闭PAI实例

完成跋文得关闭实例,以防算力浪费
链接:https://www.modelscope.cn/my/mynotebook/authorization

如果利用魔搭的免费Notebook实例则在上方点击魔搭平台免费实例再点击关闭

总结

Task1的内容相对简朴,可以充实引发新人爱好。
不外新人对于图片天生效果无法准确掌控,偶尔候纵然修改tag仍会天生改前的图片,这时可以实验修改torch.manual_seed(0)中的参数。
同时我发现纵然是同一tag偶尔会天生截然差异的内容,特殊是对画风的形貌,好比光是“二次元”这一形貌,天生的画风偶尔会天差地别。别的,部门关于构图方面的形貌,好比“近景远景,正面侧面,人物是否看向镜头”等词条效果不显着,大概可以说完全无效。对于多主角的图片效果也很差,常常出现少人、互动动作错误等情况,总的来说有很大的调解空间。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表