人工智能-Datawhale AI夏令营第四期魔搭 - AIGC文生图方向 task01笔记

圆咕噜咕噜 发表于 2024-9-1 14:23:03

Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task01笔记

Task 1 熟悉操纵平台，熟练掌握魔塔以及阿里云资源平台，成功运行baseline

项目配景：

文生图（Text-to-Image Generation）是一种通过文本天生图像的技能，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技能的历史可以分为几个关键阶段：
早期探索（20世纪50年代至70年代）

[*]底子研究：在计算机视觉和自然语言处理的早期研究中，科学家们开始实验将文本形貌转换为图像。这些早期的实验通常依赖于简单的规则和模板。
发展阶段（20世纪80年代至90年代）

[*] 符号主义方法：这一时期，研究者们实验利用基于规则的方法，将文本中的名词、形容词等映射到图像的构成元素上。这些方法通常范围于天生非常简单的图像。
[*] 基于实例的方法：随着技能的发展，研究者开始实验利用已有的图像库，根据文本形貌检索相似的图像。这种方法固然较为原始，但为后来的技能发展奠基了底子。
技能突破（21世纪初至2010年代）

[*] 天生对抗网络（GANs）：2014年，Ian Goodfellow等人提出了天生对抗网络，这是一种强盛的天生模型，可以或许在没有大量成对数据的情况下，根据文本形貌天生图像。
[*] 条件天生模型：随着GANs的发展，研究者们开始探索如何将文本条件引入到天生模型中，从而实现更准确的文生图。
当前希望（2020年代）

[*] 深度学习与留意力机制：现代文生图技能大量采取了深度学习，尤其是结合了留意力机制的Transformer模型，可以或许更好地明白文本形貌中的细节。
[*] 多模态融合：研究者们在文生图模型中实现了文本与图像特征的高效融合，使得天生的图像在内容和风格上更加贴近文本形貌。
具体技能流程

[*] 文本明白：首先，模型需要明白输入的文本形貌，这通常通过NLP技能实现，如词嵌入（word embeddings）和语言模型。
[*] 特征提取：模型提取文本中的关键特征，如物体、场景、颜色、风格等信息。
[*] 图像天生：根据提取的文本特征，天生模型（如GANs）开始创建图像。这个过程大概涉及多次迭代，以天生高质量的图像。
[*] 优化与调解：天生的图像大概需要经过后处理，以优化细节和真实感。
应用领域

[*]艺术创作：艺术家和设计师利用文生图技能进行创意表达。
[*]内容天生：在媒体和娱乐行业，用于快速天生插图、概念艺术等。
[*]辅助设计：在产品设计等领域，资助设计师快速可视化概念。
[*]教育工具：用于教育领域，资助学生通过文本形貌来明白复杂的概念。
文生图技能的发展不但展示了人工智能在艺术和创意领域的潜力，也推动了计算机视觉和自然语言处理技能的融合与进步。随着技能的不绝完善，将来文生图技能将在更多领域展现其独特的应用价值
工作流程及关键部分简介：

具体的工作流程如下图所示：
https://i-blog.csdnimg.cn/direct/f892ab01f6b947c9a2d641ceaeb80495.png
提示词（Prompts）在文生图（Text-to-Image Generation）技能中起着至关紧张的作用，它们是用户输入的文本形貌，用于引导模型天生相应的图像。以下是一些常见的提示词范例和利用提示：
常见提示词范例：

[*] 物体形貌：直接形貌想要天生的物体，例如：

[*]“一只正在飞翔的鹰”
[*]“一杯冒着热气的咖啡”

[*] 场景形貌：形貌一个包含多个元素的场景，例如：

[*]“日落时分的海滩，有海鸥和波浪”
[*]“繁忙的城市街道，高楼大厦和行人”

[*] 风格形貌：指定图像的风格或艺术流派，例如：

[*]“一幅印象派风格的花园画作”
[*]“一张抽象的艺术作品，色彩丰富”

[*] 情绪形貌：表达某种情绪或氛围，例如：

[*]“孤独的夜晚，玉轮下的湖面”
[*]“高兴的节日气氛，烟花绽放”

[*] 细节形貌：强调图像中的特定细节，例如：

[*]“一只猫的眼睛，特写镜头，毛茸茸的细节”
[*]“古建筑的雕刻，精细的纹理”

利用提示词的本事：

[*]明确性：确保提示词清晰、具体，制止含糊不清的形貌。
[*]细节丰富：提供足够的细节，资助模型更好地明白你的需求。
[*]一致性：确保提示词中的元素相互和谐，制止辩论。
[*]风格引导：假如需要特定风格，可以在提示词中加入相干艺术家的名字或艺术流派。
[*]情绪表达：通过利用情绪词汇来转达想要的氛围或情绪。
利用提示词时，可以根据模型的特性和能力进行调解，以获得最佳的图像天生效果。随着技能的发展，模型对复杂和多样化提示词的明白能力也在不绝提升。

LoRA的主要特点：

[*] 低秩顺应：LoRA通过引入低秩矩阵来模拟预练习模型参数的微小变化。这意味着只有一小部分参数需要被调解，从而降低了微调的复杂性。
[*] 参数服从：由于LoRA只调解模型的低秩矩阵，因此它需要的额外参数远少于全模型微调，这使得它非常适合在资源受限的环境中工作。
[*] 精细化控制：通过LoRA，可以针对特定的主题、风格或任务进行微调，从而在不牺牲模型原有性能的情况下进步其在特定领域的表现。
LoRA在Stable Diffusion中的应用：

[*] 风格定制：艺术家或设计师可以利用LoRA来创建具有特定风格或视觉特征的图像，例如，模仿某位艺术家的画风。
[*] 主题优化：LoRA可以资助模型更好地明白和天生特定主题的图像，比如，优化模型以天生更加逼真的动物图像。
[*] 任务特定调解：对于某些特定的应用场景，如产品设计中，LoRA可以用来调解模型以更好地满足特定设计需求。
如何实现LoRA：

[*] 选择底子模型：首先，选择一个已经预练习好的Stable Diffusion模型。
[*] 定义低秩矩阵：在模型的某些层中插入低秩矩阵，这些矩阵将用于模拟参数的变化。
[*] 微调过程：利用特定的数据集对低秩矩阵进行微调，这些数据集应反映所需的主题或风格。
[*] 集成LoRA：微调完成后，将调解后的低秩矩阵集成回底子模型中，以实现定制化的图像天生。
通过这种方式，LoRA为Stable Diffusion模型提供了一种灵活、高效的定制化手段，使得用户可以或许在不重新练习整个模型的情况下，实现对图像天生过程的精细控制。这对于进步模型的应用范围和用户体验具有紧张意义。
别的还有ComfyUI和参考图控制等
下面我们正式进入本期夏令营的项目吧！
手把手带你速通Task1

第一步：报名参加配套文生图比赛：

比赛项目：可图Kolors-LoRA风格故事挑战赛
参赛链接：可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制
https://i-blog.csdnimg.cn/direct/480ce50df8e64ce4a20f00a933b6bee2.png
点击报名参赛
一定要留意查看比赛协议，以免产生不必要的纠纷。
别的，报名者可以选择创建队伍，也可以加入队伍，还要特殊留意的是要完成实名认证，更多详细规则不再赘述，读者可登录官网自行查看简单易懂。
第二步：创建环境

在本次夏令营的学习中，大家可以试用阿里云提供的PAI-DSW试用和魔塔平台的GPU试用
阿里云试用：具体试用步骤如下图所示

https://i-blog.csdnimg.cn/direct/ac5129720134411787bb82a4568ee52b.png
https://i-blog.csdnimg.cn/direct/2e522ab6e1b44c0d89893313253c4e5a.png
https://i-blog.csdnimg.cn/direct/16ad3b5edd714df480d1f295bceb1582.png

在魔塔社区进行授权：

魔塔社区快捷入口：https://www.modelscope.cn/my/mynotebook/authorization
进入后具体操纵步骤如下
https://i-blog.csdnimg.cn/direct/b5e94228097d4c13901c9e02ac43cb98.png
https://i-blog.csdnimg.cn/direct/50e83d9b73a24b76924c723362ea9a1b.png
https://i-blog.csdnimg.cn/direct/33d6ecc1f03545599c71dfed3afaf1dd.png
https://i-blog.csdnimg.cn/direct/35c6d18e500c4842b60d8992bafbf81c.png
若已经试用过阿里云免费资源，还可以利用魔塔社区提供的36小时GPU扣头。
下面让我们正式进入baseline吧
第三步：速通baseline

1.选择实验环境https://i-blog.csdnimg.cn/direct/bfc1766b858f4127b89975deebb9b8fd.png
由于我阿里云试用逾期，选择了魔塔社区提供的环境进行实验，这里大家留意，一定要选择方式二，GPU环境，CPU环境会出现无法练习的问题
2.下载baseline相干文件
在本步骤中，为了制止一些奇怪的错误，我们打开环境后，选择删除左方工作区的kolors文件夹，选择又方其他中的终端选项https://i-blog.csdnimg.cn/direct/b21f88bcfd65435cb2603b2d5fc1a30d.png
接下来利用Git，进行文件克隆，具体如下 https://i-blog.csdnimg.cn/direct/b88f37b30dfb45cd905f6f4a5ff238ba.png输入箭头所指的两行命令，当左方工作区出现文件夹后证明已经成功，接着点击进入文件夹，继续点击baseline.ipynb，即可进入baseline编程文件中，进行操纵
https://i-blog.csdnimg.cn/direct/26ddb1e2d1d040b3a545e45d7b948e63.png
第一步，运行安装环境的文件，在左方变为对勾时，重启内核https://i-blog.csdnimg.cn/direct/c64b535f350941d5a5da0e3e3fb88935.png
第二步，下载数据集，左方工作区出现data文件即可https://i-blog.csdnimg.cn/direct/79a72f5c7a114a69a1761f5729066984.png
https://i-blog.csdnimg.cn/direct/9820d6bf4867463fa766d4f782f9a524.png
第三步，进行数据的预处理，以方便背面的练习，本步骤，无特殊说明，运行即可https://i-blog.csdnimg.cn/direct/ec7ba3479976453db4cc14df0d3bd881.png
https://i-blog.csdnimg.cn/direct/63c4658263694470aedd2c2372f39ded.png
第四步，练习模型，只要跟着我一步一步做到本单元，只要点击运行，耐心等待即可
https://i-blog.csdnimg.cn/direct/e5510d87ac744eb3b2935bc43de069b5.png
此步仅查看了练习脚本的输入参数，对代码练习不会产生任何影响，所以，运行不运行均可
https://i-blog.csdnimg.cn/direct/0762ca7b1ccc4daba056c58fb6d61839.png
开始练习，该过程泯灭时间较长，耐心等待
https://i-blog.csdnimg.cn/direct/f35024dc08904cff9de1bb74e8949306.png
加载模型后即可开始天生图片了https://i-blog.csdnimg.cn/direct/0bbc933879e0409385036bf14bc34659.png
适当修改提示词，天生专属于自己的图片
示例如下
https://i-blog.csdnimg.cn/direct/cd91d70b192040408d33a584e3559189.pnghttps://i-blog.csdnimg.cn/direct/c6b359f197ca4560873647da182bd06c.pnghttps://i-blog.csdnimg.cn/direct/8ff41cc117524d978a26066c14ba587a.pnghttps://i-blog.csdnimg.cn/direct/caff9324867d4e66b4f59ebfb3bc4303.png
最闭幕果如下，是不是更加芳华洋溢了呢
https://i-blog.csdnimg.cn/direct/83a866336a33400c8f8bcc61b0ea6f89.jpeg

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task01笔记