论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
Stable Diffusion学习指南【图生图篇】
Stable Diffusion学习指南【图生图篇】
用多少眼泪才能让你相信
论坛元老
|
2025-4-10 19:43:11
|
显示全部楼层
|
阅读模式
楼主
主题
1767
|
帖子
1767
|
积分
5303
(注:文末扫码获取AI工具安装包和AI学习资料)
纵然之前在Midjourney中有过图生图的使用履历,但大部分人对该功能的印象仅限于喂图,通过它可以让模子相识更多我们要传达的信息,从而达到正确出图的目的。但在Stable
Diffusion中的图生图还要强大的多,除了控图还包罗了手动涂鸦、局部重绘、图像扩展等更多功能。
今天的文章里我会为你具体介绍图生图的工作原理、工具解析和图像重绘的应用方向,如果没有看过【文生图篇】的朋友,我上篇有分享了,建议大家先去学习下,以便你更好的理解今天的内容。
以下是正文部分
01
图生图功能初识
1.1 传统意义上的喂参考图
我们都知道,模子在运算时是根据我们提供的提示内容来确定画图方向,如果没有提示信息,模子只能根据此前的学习履向来自行发挥。在之前的文生图篇,我们介绍了怎样通过提示词来控制图像内容,但想要实现正确的出图效果,只靠简短的提示词是很难满足实际需求的。
AI绘画的随机性导致我们使用大段的提示词来精确形貌我们想要的画面内容,但毕竟文字能承载的信息量有限,纵然我们写了一大段咒语,模子也未必能正确理解,不排除偶然候还会出现前后语义辩论的情况。其实这个过程就像甲方给我们明白计划方向,除了重复沟通想要的画面内容外,有没有什么比口述更高效的沟通方式呢?这个时间,有履历的甲方会先去找几张目标风格的竞品图,让我们直接按照参考图的感觉走。
【感觉】这个词听起来好像虚无缥缈,但在AI绘画范畴是有实际道理的,由于图像能承载的信息要比文字多得多。以上面这张图为例,如果用提示词形貌,大概写上几百字都难以向模子解释清晰画面的内容,但图生图差别,模子会自动从参考图上提取像素信息,并将其作为特征向量正确映射到终极的画图结果上,通过这样的方式能最大水平还原参考图中的提示信息,实现更稳固正确的出图效果。
因此,
传统意义上的图生图就是将提示词和参考图中的图像信息举行综合思量并举行画图的过程。
1.2 真正强大的图像重绘
固然,如果仅仅是喂图功能,Stable
Diffusion的图生图板块并不值得我们单独花一篇文章来讲解,它的真正代价在于提供了丰富的操作工具将图像可控性提升到了新的条理。
我们先往返首下平时使用文生图举行AI绘画的过程:编写提示词举行画图,然后根据出图结果再不停优化提示词和各类参数举行抽奖,终极得到一张比较满意的图片。而图生图则是直接根据现有图片举行优化调整,因此图生图的操作过程可以简朴理解成省去了前期文生图的抽奖过程,直接在现有图像约束的基础上举行的二次重绘。
必要注意的是,共同参考图举行图生图的过程是必要将参考图先逆向推导为潜空间的数据,再和提示词综合思量绘制成图像。因此
相比没有逆向推导过程的文生图,图生图的绘制会占用更多的体系资源
,根据这个原理,我们也就能理解使用参考图的尺寸越大,在逆向推导的过程中斲丧的资源也会越多。
在Stable
Diffusion中,我们可以通过蒙版和局部重绘等功能来控制只对图像特定部分的地区举行重绘,并设置各类参数来控制重绘的效果。此外通过选择差别的画图模子和调整图像尺寸,我们也能甚至还能实现画风转换、图像无损放大等更多玩法。相较于其他AI绘画工具,Stable
Diffusion中的图生图并非单纯的喂参考图,而是
可以在现有图片的基础上通过人工干预来实现更加稳固可控的图像重绘。
02
图生图工具解析
在WebUI的功能导航栏中选择图生图模块,我们可以看到它的页面布局和文生图根本类似,同样有提示词输入框、操作按钮和参数设置项,差别的是这里多了提示词反推、支持上传图片的二级功能模块和对应的参数设置项。
2.1 提示词反推
先来看提示词反推的功能:即根据提供的图片自动反推出匹配的文本关键词,也就是我们俗称的图生文功能。WebUI这里提供了Clip反推和DeepBooru反推2种反推操作,其区别在于:
Clip反推:推导出的文本倾向于自然语言的形貌方式,即完整的形貌短句,该功能的特点是可以形貌出画面中对象间的关系
DeepBooru反推:推导结果更多的是单词或短句,比较类似我们平时誊写提示词的方式,该功能更倾向于形貌对象特征
不丢脸出,通过Clip和DeepBooru反推的提示词中包罗不少错误标签,必要人工举行二次筛选。其实,WebUI在图生图模块内置提示词反推是为了在上传图片后可直接获取相应的参考关键词,以便后面更好的通过提示词来控制重画图像内容。但实际上我们平时反推提示词时更常使用的是秋叶整合包中自带的
Tagger插件
,该插件除了生成的提示词正确度和稳固更高,还提供了关键词分析和排名展示,属于Stable Diffusion的必备插件之一。
在Stable Diffusion中有非常多类似的开源插件可以有用提升画图效率,但不属于本篇文章重点,这里就不过多介绍了。
2.2 二级工具栏概览
在图生图模块中为我们内置了很多二级工具栏,很多朋友看到这样大概会担心学习起来很复杂。但其实这里每款工具其实都是在上一个工具基础上举行的衍生,好比涂鸦和局部重绘是在原生图生图基础上增加了手绘和蒙版,而涂鸦重绘又是这2款工具的连合。体系来看,所有的二级工具都是围绕
图像重绘、手绘涂鸦和蒙版选区
这3个基础功能所举行的重组,而WebUI作者是为了方便我们使用将实际操作场景举行了细分。
上图中整理了差别工具的简介和差别对比,下面针对每款工具和相干参数为大家举行具体介绍。
2.3 图生图工具
这部分的操作和文生图根本相同,区别在于支持额外上传参考图并增加了几项图生图专属的参数。下面介绍几项影响图生图效果的重要参数,这也是所有二级模块都必要用到的参数,其中和文生图模块中相同的参数这里就不再赘述了,大家可以回首下【文生图篇】的相干内容。
2.3.1 重绘幅度
重绘幅度可以说是图生图中最重要的参数,它的功能有点类似Midjourney中的iw参数。前面介绍图生图的原理是在原图基础上绘制一张新的图片,而**重绘幅度就是用来控制在原图基础上重绘的发散性水平,**数值越高,阐明模子重绘过程中更加自由,绘制结果和原参考图的差别性越大,生成的图像也就更倾向于模子自身的画图风格。
可以看到当重绘幅度过高时,绘制的图像内容和原图根本就很难举行关联了,因此我们通常将重绘幅度的数值控制在
0.4~0.8
之间,这样既能维持参考图的控图效果,又能包管重绘后不会发生太猛烈的变化。但从重绘幅度角度来看图像可操作的范围并不大,
该参数的更多场景是共同其他功能项举行灵活调治
,在下面的内容中我会共同各类工具举行具体介绍。
2.3.2 重绘尺寸
故名思义,该参数用于设置重绘后的图像尺寸,可以分为
直接设置图像宽高
和
设置图像缩放倍数
2种调治方式。
默认情况下重绘尺寸会自动带入当前参考图的宽高数值,而当我们拖动尺寸滑块时,可以直观的在参考图上预览重绘后的图像范围。
2.3.3 缩放模式
很多时间我们的参考图和重绘后的图片尺寸并不一致,而缩放模式就是用来选择采用何种变形方式来处理图像。这里虽然提供了4个按钮,但是可以分为2类场景来使用。
一种是图像长宽比发生变化时使用
,这里提供了3种我们常见的处理方式:拉伸、裁剪、添补(由于汉译插件差别,在名称上存在一定差别)。
另一种是图像长宽比例稳定时使用
,多数情况下用于图像等比放大。
换句话说,如果重绘后的图像尺寸和原图完全一样,这几种缩放模式使用起来并没有区别。
下面我们来挨个介绍差别缩放模式的效果差别。起首是
拉伸模式(仅调整巨细)
,它的效果是将原图直接变形拉伸至新设定的尺寸。在下面的图中可以看到,在重绘幅度参数设置为0时,图像被直接变形拉伸为正方形,而随着提升重绘幅度,变形效果逐渐得到缓解,但同样也会导致和原图差别过大。
第二种**裁剪模式(即裁剪后缩放)**是根据新设定图像的长宽比,对原参考图的内容举行裁切。重绘后尺寸由矩形变为正方形,上下部分内容被裁切,这里的重绘幅度参数不会对图像的长宽比例产生影响。
第三个**添补模式(缩放后添补空白)**的效果根据新设定的长宽比例,将原图缺失的部分举行绘制添补。好比当图像从原图的512
768重绘为768
768时,下图的效果就是向左右添补了新的配景内容,且随着重绘幅度数值越大,添补部分和原图的融合效果越好。
最后一种缩放模式叫
调整巨细(潜空间放大)
,有的地方也叫直接缩放,该功能重要用于对图像举行等比放大,实现“小图转大图”的效果。固然如果重绘尺寸比例和原图比例不一致,则默认会采用拉伸的方式举行处理,但由于是反馈到潜空间中举行运算,因此图像出现了模糊变形的效果。
相较于单纯增加分辨率的放大做法,图生图中使用调整巨细模式有重绘幅度参数可供调治,少量的重绘幅度可以为原图增加更多细节。
固然添加重绘幅度的弊端是不可克制的会导致图像发生改变,想要实现更好的效果还有更多定制插件可以实现低显存绘制高清大图,此处先按下不表。
对于调整巨细功能的潜空间放大算法,我们可以在设置-放大-图生图放大算法中举行切换,选择之跋文得保存设置并重启webUI界面。
综合使用场景来看,除非是必要对图像举行画布拓展,否则多数情况下还是
建议先将参考图裁剪到目标比例再导入图生图中使用,这样的出图效果会更加可控。
下面我们再来看看图生图模块下的其他二级工具及参数,由于汉化差别,二级工具的名称大概差别,好比涂鸦重绘有的翻译插件下也被称作有色蒙版重绘。
2.4 涂鸦工具
再来看看第二个涂鸦工具,涂鸦工具的参数项和图生图完全相同,唯一区别是上传图像后右上角多了画笔工具,支持我们对图像举行涂抹。涂鸦工具相当于增加了我们传统的手绘过程,
在图片上涂抹色块后再举行全图范围的图生图
,同时共同提示词可以实现更加多样的重绘效果。
其中画笔支持调整调整笔触巨细和切换颜色,自带的吸色工具也可以举行全屏幕范围内的取色。
在这几个操作工具中,返回上一步的按钮目前还存在bug,偶然候并不会逐步撤回而是将整个涂鸦笔触全部清空。并且由于不知名缘故原由,上传的图片偶然候会出现报错或失效等情况,必要删除当前图片后重新上传才能。
涂鸦工具的操作很简朴,使用画笔在图像上涂抹颜色后点击生成,Stable
Diffusion会将手绘后的图像举行团体重绘,同时控制重绘幅度和增加形貌关键词可以实现非常神奇的融图效果。在下图中可以看到女孩的衣服会根据涂鸦部分重绘成紫色的运动服,当重绘幅度设置为0.5左右时达到比较自然的融合效果。
必要注意的是通过涂鸦工具来重画图像时,由于重绘幅度的影响,画面中未被涂鸦的部分也会发生变化,因此
涂鸦工具是针对画面团体举行重绘。
由于鼠标涂鸦的绘制效果不敷正确,而且涂抹的颜色不支持透明度等细节调整,因此涂鸦工具平时使用并不多,一样平常都是导入PS中举行细致的绘制操作,这里就不做过多赘述了。
2.5 局部重绘工具
再来看看局部重绘工具,在前几天,Midjourney终于上架了大家期待已久的局部重绘功能,应该算得上是Midjourney目前在控图方向上最大的一次迈步,而Stable
Diffusion在这块算得上是深耕已久。简朴来说,局部重绘就是
在图像中设定一块地区,在图生图过程中只针对该地区部分举行重绘,而其他部分保持稳定,从而实现精准控制改变图像特定部分的效果。该功能
通常用于对画面大部分内容都根本满意,但必要调整部分细节元素的场景。
在下图中可以看到,局部重绘同样是使用画笔举行涂抹,但这里涂抹的颜色只有黑色,由于被涂抹地区表现的是蒙版,而不是实际的颜色色块。
下面我们来看看局部重绘的各项参数。
**蒙版边缘模糊度:**该参数用于设置重绘地区和原图的融合水平,效果可以简朴理解为PS中的选区羽化。边缘模糊度太小会导致边缘衔接过于生硬,而数值太高会削弱蒙版的地区限定效果,导致蒙版不精确或直接失效。默认情况下数值是4,我们可以根据图像的融合效果来举行适度调治。
为方便对比蒙版效果,在下图的案例中我选择重绘黑色蒙版之外的地区,可以发现当边缘模糊度为0时,蒙版边缘非常生硬,而随着数值变大,重绘地区和原图的融合过渡也变得更加自然。
蒙版模式:
【重绘蒙版地区】表现重绘涂抹过的蒙版地区,【重绘非蒙版地区】表现涂抹地区稳定,而是重绘画面中的其他地区。该参数类似PS中的选区反转,在实际使用时根据重绘地区巨细自由选择是涂抹必要重绘的部分还是剩余的配景部分。
**蒙版地区内容处理:**该选项用于设置重绘时的图像处理方式,这里提供了4个选项:添补、原图、潜空间噪声、空白潜空间,具体的效果可以看下图,相较之下潜空间噪声会比其他几项产生出更多变化,而原图的效果比较稳固。
该参数对画图结果的影响不太稳固,一样平常情况下保持默认的【原图】即可。
**重绘地区:**指的是重绘过程中用于参考的图像范围。在下图中可以清晰的看到,当重绘地区设置为【仅蒙版地区】时,绘制的部分只有涂抹的蒙版部分地区的元素,相当于把涂抹地区切割下来单独举行重绘,该选项下会打断选区和参考图其他部分的联系,终极画面的融合效果大概会降落。
**仅蒙版地区下边缘预留像素:**该参数只在重绘地区选择了【仅蒙版地区】时见效,用于控制切割下来重绘部分向外扩展的范围巨细。观察下面重绘过程的进度图可以发现,边缘预留像素的数值越大,则绘制过程中会向四周裁剪更多的内容举行团体重绘。
在默认情况下局部重绘会参考全图举行绘制,并且被涂抹的范围并不代表都会发生变化,所以通常我们会在目标地区基础上对外再涂抹一部分地区,以包管重绘后更好的融合效果,而进步边缘预留像素也是同样的原理。
总结来看,由于手涂蒙版的方式比较方便也很自由,因此局部重绘被广泛用于图像的局部调整,好比常见的脸部修复、手部修复等。
2.6 涂鸦重绘工具
涂鸦重绘工具可以理解为**涂鸦+蒙版的连合,相当于在涂抹颜色的同时加上了局部重绘的蒙版,只不过这个过程中颜色涂抹和蒙版绘制是同时举行的。**因此和局部重绘相比,涂鸦重绘多了一个参数项:蒙版透明度。
蒙版透明度设置的是涂抹色块在画面中的出现效果:当透明度设置为0时涂抹颜色完全覆盖下方图片,此时等同于涂鸦工具的效果,50%时相当于半透明色块,而达到100%时蒙版完全透明,相当于色块消散。必要注意的是,当透明度过高时涂抹色块大概无法被Stable
Diffusion正确识别,绘制结果中会直接出现出半透明色块效果(如下图中的50%透明度时)。
下面举个实际案例,我们希望实现长裙变短裙的效果。如果只是单纯的局部重绘,重绘的部分始终会受到原图其他部分的影响出现裙摆,但这里的重绘幅度又不能调整过高,否则和原图会产生明显的割裂感。
但使用了涂鸦重绘相当于给Stable
Diffusion提供了大概的范围参考,并且由于可以自由设置绘制色块的不透明度,不消担心完全覆盖原图内容,在整个重绘操控上更加正确和稳固。
对比来看,
涂鸦重绘比单纯的涂鸦工具多了蒙版的局部控图效果,又比局部重绘工具多了颜色的引导作用,可以说是两款工具的连合体。
2.7 上传重绘蒙版工具
虽然涂鸦重绘效果很好,但毕竟手动涂抹的方式不敷正确,因此WebUI也提供了自行上传蒙版的方法来精准控制重绘地区。上传重绘蒙版和局部重绘的页面根本相同,区别在于
支持额外上传一张已绘制好的蒙版图。
这里蒙版图片的颜色寄义和PS中的蒙版相同,白色表现有内容,黑色表现为空,因此白色地区内的图像会被举行重绘。相信很多朋友都出现过黑白蒙版傻傻分不清晰的情况,这里给大家分享个小妙招。我们只要将蒙版图想象成黑板即可,黑色表现默认的空白,白色即粉笔添补后的内容。
必要注意的是,在Stable Diffusion中表现半透明蒙版的灰色并不适用,因此像黑白渐变的蒙版图不起效果,我们平时用黑白纯色即可。
上传蒙版的上风在于我们可以精准控制蒙版范围,通常在PS中举行抠图并添补成黑白蒙版图,再上传到Stable Diffusion中举行使用。
2.8 批量处理工具
最后还有个批量处理工具,顾名思义可以批量对图像举行重绘操作。只需设置到相干参数和提示词,设置到参考图文件夹和输出文件夹就能实现批量重绘。我们平时在抖音上看到那种用拍摄视频转换AI画图视频也是同样的原理,通过将视频拆解成逐帧图片再举行重绘,但目前开源社区中有用于制作动态视频更好用的插件,这里就不再赘述了。
03
关于图生图的更多知识
由于各款工具的名称都比较相似,加上差别功能项的调治参数和使用方法都差别,新手在学习图生图模块时很容易把各类功能弄混淆。因此,在学习这类AI绘画工具时,我更建议大家按照下面重绘应用方向的思路来理解,而不是单纯的从工具角度学习。
3.1 重绘的3个应用方向
我们前面提到
图生图的本质是举行图像的二次重绘
,根据绘制地区的差别,可以将重绘功能分别为团体重绘、局部重绘和图像扩展三个方向:
团体重绘 Img2img:按照原图的比例举行团体重绘,即传统意义上的基于参考图举行图生图,必要注意的是图像比例稳定,但尺寸可以等比例调整。
局部重绘 Inpaint:通过手动涂鸦或上传蒙版等方法控制只针对指定地区举行重新绘制。
图像拓展 Outpaint:在原画布尺寸基础上向其他方向拓展,添加更多原画布外的内容。
回过头来看,
文生图、图生图、涂鸦都相当于团体重绘功能,而局部重绘、涂鸦重绘和上传重绘蒙版则是局部重绘功能,至于图像扩展则是在图像比例发生变化且缩放模式选择添补时启用。
我们横向对比其他工具来看,团体重绘、局部重绘和图像扩展可以说是所有图像处理工具的基础功能,毕竟可控性在商业范畴的代价很多时间比创意性更加重要,而可以将两者连合起来灵活使用的AI绘画工具才称得上是行业翘楚。这也是为什么PS的创意生成和画布拓展绘制功能刚一推出就引起广泛热议,而像Midjourney近期更新的Zoom
Out图像扩展和Vary(Region)局部重绘等功能同样也是在向控图稳固性方向发展。
3.2 图生图中的提示词
前面提到图生图本质是增加了参考图的约束,虽然提示词的信息权重被参考图削弱了一部分,但并不意味着提示词就没用了。相反,很多时间还是必要通过提示词来告诉Stable
Diffusion我们希望绘制的内容。这时间有朋友会问,那我们是只填写必要重绘部分的内容还是将画面全部内容举行完整形貌呢?其实,图生图的提示词填写要根据实际的出图效果来调整。
当我们只希望更改画面中的部分元素而其他部分稳定时,就必要在提示词中将不更改的部分举行保存,并对修改部分举行调整或增补形貌,为了包管出图效果还可以灵活增加对应关键词的权重。
而当局部重绘时,如果绘制部分和原有图像的融合效果不佳,我们可以增加蒙版部分之外的内容形貌来加强和画面其他部分的联系,好比下面的图中通过交互动作来增加重绘后手部和环境的融合效果。
以上案例只针对提示词举行了调整,实际使用时像seed值、重绘幅度、画图模子等因素也要举行灵活思量。
3.3 图生图和高清修复
如果有仔细观察的小同伴应该已经发现了,图生图中并没有提供文生图中的高清修复选项,这是由于
高清修复的本质就是举行了一次额外图生图操作
,同样是老师成小图再举行放大,所以在图生图中想实现高清修复,只需将图像尺寸调大举行重绘即可,此外高清修复这一特性在图生图中有更多使用场景。
不知道大家平时是否发现过这样的征象,当人物在画面中占比越小,出图结果中出现脸部崩坏的情况就越常见,而当对人物脸部特写时很少出现崩坏情况。这是由于
Stable
Diffusion模子在逆向扩散的过程中对大地区的图像去噪处剖析更加清晰,因此更擅长绘制画面中占比大的事物
,通过利用这一点我们可以将图像中不清晰的小图截取出来举行放大重绘,然后再放回原图位置,即可有用修复局部变形的情况。
在今天文章里,我为大家介绍了Stable
Diffusion中图像重绘的作用、各类工具和参数的功能解析以及关于图像重绘的学习思路。相比于文生图的一步成型,图生图更多是碎片化的使用思路,必要通过不停的修饰和调整局部细节来得到我们想要的图片。
回首近几篇的文章内容,从文生图到图生图,从局部重绘再到上传重绘蒙版,不难发现我们对Stable
Diffusion的学习是从发散向可控的方向逐渐递进,而聊到可控性就不得不提Stable
Diffusion中台甫鼎鼎的ControlNet,在下篇文章中我会为你具体介绍这款真正让Stable
Diffusion立足AI绘画之巅的神级插件。今天文章就到这里结束啦,我们下期再见
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
用多少眼泪才能让你相信
论坛元老
这个人很懒什么都没写!
楼主热帖
iNeuOS工业互联网操作系统,增加搜索应 ...
安卓期末大作业——单词本APP(源码+任 ...
【Java开源数据库语言】基于SPL如何提 ...
杭州联合银行 x 袋鼠云:打造智能标签 ...
vue3+Element采用递归调用封装导航栏 ...
攻防世界 new_easypwn 题解
个人博客系统(附源码)
真正在大厂干了几年,我学会了反内卷[ ...
内网安全 - 简单域环境搭建
ssrf实战
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
公有云
快速回复
返回顶部
返回列表