Datawhale AI夏令营第四期魔搭 AIGC task02
一、AI生图1.1 AI生图技术
AIGC(AI-Generated Content)是通过人工智能技术自动天生内容的生产方式,很早就有专家指出,AIGC将是未来人工智能的重点方向,也将改造相关行业和领域生产内容的方式。
一样平常来说,AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,终极的目的是可以根据输入的指示(不管是文本照旧图片照旧任何)天生符合语义的图片。
推翻“有图有真相”!!!
鉴戒Deepfake技术!!!
Deepfake:Deepfake是一种利用人工智能技术天生的伪造媒体,特别是视频和音频,它们看起来或听起来非常真实,但实际上是由计算机天生的。这种技术通常涉及到深度学习算法,特别是天生对抗网络(GANs),它们能够学习真实数据的特性,并天生新的、传神的数据。虽然在多个领域展现出其创新潜力,但其滥用也带来了一系列严重的危害。在政治领域,Deepfake可能被用来制造假新闻或操纵舆论,影响选举结果和政治稳定。经济上,它可能粉碎企业形象,引发市场恐慌,乃至操纵股市。法律体系也面临挑战,因为伪造的证据可能误导司法判断。别的,深度伪造技术还可能加剧身份偷窃的风险,成为恐怖分子的新工具,煽动暴力和社会动荡,威胁国家安全。
了解AI生图有必要!!!
[*] 对于平凡人来说,可以克制被常见的AI生图场景欺骗,偶尔也可以通过相关工具画图
[*] 对于创作者来说,通过AI生图的工具可以快速提效,制作自己所需要的内容
[*] 对于技术人来说,了解AI生图的能力的玩法,可以更好地针对自己的业务进行开辟和利用,乃至攻克难题开辟更实用的工具
1.2 AI生图汗青
最早的AI生图可追溯到20世纪70年代,当时由艺术家哈罗德·科恩(Harold Cohen)发明AARON,可通过机械臂输出作画。
https://i-blog.csdnimg.cn/direct/a3b88de7d65f401c88acd596299b670c.png
现代的AI生图模型大多基于深度神经网络基础上训练,最早可追溯到2012年吴恩达训练出的能天生“猫脸”的模型。其利用卷积神经网络(CNN)训练,证明白深度学习模型能够学习到图像的复杂特性。
https://i-blog.csdnimg.cn/direct/e537219eaa174a8da7fc42e3956153f1.png
2015年,谷歌推出了“深梦”(Deep Dream)图像天生工具,类似一个高级滤镜,可以基于给定的图片天生梦幻版图片
https://i-blog.csdnimg.cn/direct/c73e5ecbed7f4e9dbf492b75781119a5.png
2021 年 1 月 OpenAI 推出DALL-E模型(一个深度学习算法模型,是GPT-3 语言处理模型的一个衍生版本),能直接从文本提示“按需创造”风格多样的图形设计
https://i-blog.csdnimg.cn/direct/5e889a54bda74b38bce0ca8e80de3a2c.png
2022年8月,AI生图真正走进了大众的视野,让各个领域无法忽视。
1.3 AI生图难点和挑战
AI容易翻车!
充满AI味道!
二、AI生图前沿
2.1 数据集查找
https://i-blog.csdnimg.cn/direct/3f442c3118e648e4a1c3e50c9042866d.png
AI生图自破圈以来,被科研界、业界广泛关注,且引发了各大厂商的模型之战,如我们这次学习活动所需要用到的Kolors(可图)模型(点击即可跳转魔搭模型先容页),就是其中的一个产物。Kolors(可图)模型(点击即可跳转魔搭模型先容页)是快手开源的文本到图像天生模型,该模型具有对英语和汉语的深刻理解,并能够天生高质量、传神的图像。
代码开源链接:https://github.com/Kwai-Kolors/Kolors
模型开源链接:https://modelscope.cn/models/Kwai-Kolors/Kolors
技术陈诉链接:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
魔搭研习社最佳实践说明:https://www.modelscope.cn/learn/575?pid=543
过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,魔搭社区还开源了专门的各种风格的可图优质咒语书(点击即可跳转),可以针对600+种不同风格,完善prompt,天生各种风格图片,可以在我们的学习当中利用。
https://i-blog.csdnimg.cn/direct/b02e9d0287064b54a955115b11e604c7.png
三、读懂baseline代码
3.1 工具先容---通义千问大语言模型
通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。
https://i-blog.csdnimg.cn/direct/a534c1f540fc4a15821ba2359a5447f5.png
从其自我先容可以看到,编程与技术支持能力是它的强项之一。
接下来我们把场景聚焦到编程与技术支持这个方向,让他具体先容下自己可以怎样资助大家编程。
https://i-blog.csdnimg.cn/direct/b84c35ed39294f5aa0fa0239be8d4b8a.png
接受通义千问的邀请函!
https://i-blog.csdnimg.cn/direct/ce1dc2ca70294b2baa3dbafa195f8433.png
3.2 精读baseline---从零入门AI生图
文生图代码的框架结构:
https://i-blog.csdnimg.cn/direct/d93637dda157445199a317b0020a93ad.png
baseline中的全部代码见task01中的学习链接。
分析代码主体架构
3.2.1 输入的Prompt
将代码运送给工具助手
https://i-blog.csdnimg.cn/direct/9d3c279b11ee48489172307bb3893925.png
3.2.2 返回的结果
返回结果会先容代码的多个部分。
https://i-blog.csdnimg.cn/direct/a061a3132a244394a7f544cbf12941b2.png
3.2.3 执行过程
向通义提问
https://i-blog.csdnimg.cn/direct/603ed80a16f04c16a42d6a4b6eb99164.png
通义 返回的结果
https://i-blog.csdnimg.cn/direct/f5686169909f4732810a26b6b5e09e6b.png
若对代码还存在疑问,可继续对AI进行追问
四、实战训练---基于话剧的连环画制作
4.1.数据预备
4.1.1 提示词
https://i-blog.csdnimg.cn/direct/92ef68edfe02473fb8f0fe92563876dc.png
4.1.2 通义资助
自己在通义的返回的基础上,多多调解,争取打磨出一个最佳的提示词
https://i-blog.csdnimg.cn/direct/f0aac154900e4c5c9aec3f8e95bdf5fa.png
4.1.3 最后的话剧场景
联合AI内容,自己在AI结果上做一些调解,终极整理出来场景表格
https://i-blog.csdnimg.cn/direct/018bd9c9d1f2496888eb1ed906876b8d.png
4.2 执行Task01的Baseline
4.3 提示词修改
[*] 双击进入baseline文件
[*] 找到天生图像的板块
[*] 依次替换8张图片的正向提示词和反向提示词
4.4 结果展示
https://i-blog.csdnimg.cn/direct/faea6f38018e49fd9a6d0e7bb657bf59.pnghttps://i-blog.csdnimg.cn/direct/196ac39de2624d3483080b157e06d632.png
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]