马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
一、引言
AIGC,即AI-Generated Content,是一种使用大型预训练模子如天生对抗网络(GAN)、扩散网络(Diffusion)和语言大模子(Transformer)等人工智能技术,通过对大量数据举行学习和模式识别,最终创造出各种范例内容的技术。例如,AIGC可以根据输入的“提示词”(如关键词或形貌)或参考图片,天生相应的文章、图像、音频、视频等内容。
对于AIGC而言,目前比力火热的应用场景有文本天生(ChatGPT、文心一言、通义千问等) 以及生图场景(妙鸭相机、文心一格等等)。
当前的AIGC生图已经被广泛应用于各种贸易落地场景,例如广告宣传图、个人形象天生甚至是一些灰色财产。
得益于最近在做项目有所涉猎AIGC相关内容,举行一次简朴的总结分享。
目前主流的生图选型有StableDiffusion、Midjourney、DALL-E等,由于StableDiffusion开源的属性以及丰富的生态,下文主要先容均基于StableDiffusion,以及基于StableDiffusion的WebUI、ComfyUI。
二、Stable Diffusion基础
简介
Stable Diffusion是一种基于概率的机器学习模子,用于天生具有特定布局和特性的数据。
该模子通过逐步引入布局和模式,从无到有地天生数据。在Stable Diffusion中,这个过程被用来从随机噪声中天生图像。
Stable Diffusion生图过程
基本流程就是将图片举行扩散,扩散成一些随机的像素点之后,再通过预先训练好的模子,对扩散后的图片,举行一定秩序的天生,从而实现天生指定效果照片的作用。
生图过程中的一些核心概念
- 对于SD模子,其autoencoder模子参数巨细为84M,CLIP text encoder模子巨细为123M,而UNet参数巨细为860M,以是SD模子的总参数量约为1B。
autoencoder:encoder将图像压缩到latent空间,而decoder将latent解码为图像;
CLIP text encoder:提取输入text的text embeddings,通过cross attention方式送入扩散模子的UNet中作为condition;
UNet:扩散模子的主体,用来实现文本引导下的latent天生。
基于以上概念,天生图片的过程图:
Stable Diffusion与其他天生模子的对比
名称
| 作者
| 优点
| 缺点
| 价格
| Stable Diffusion
| StabilityAI、CompVis与Runway互助开辟
| 免费试用!价格便宜、开源、操纵控制性强
| 对使用者要求高
| 公有云:$10=约5千张图
开源版本:
免费
| Midjourney
| Midjourney
| 使用直接、上手快、图片质量高
| 通过Discord使用、图像公开
| 基础月费:$10/月
| DALL·E 3
| OpenAI
| 用户友好、功能齐全
| 收费最贵
| ChatGPT Plus可以使用:$20/月
|
三、Stable Diffusion WebUI
Stable Diffusion WebUI是对Stable Diffusion模子举行封装,提供可操纵界面的工具软件,ComfyUI基本同理。
github地点:GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI
WebUI的界说与功能先容
界说
Stable Diffusion WebUI是由AUTOMATIC1111等社区开辟者基于Gradio为Stable Diffusion模子提供的一个图形化界面工具。
它封装了Stable Diffusion模子的核心功能,并通过Web技术构建了一个用户友好的界面,使得用户无需深入相识模子背后的复杂原理,即可通过简朴的操纵实现高质量的图像天生。
功能先容
- 用户可以输入一段形貌性文本,Stable Diffusion WebUI会根据这段文本天生相应的图像。这是Stable Diffusion模子最基本且最常用的功能。
- 用户可以调解多种天生参数,如采样方法(Sampler)、迭代步数(Sampling steps)、图像尺寸(Width & Height)、批次计数(Batch count)、每批数量(Batch size)等,以获得满意的天生效果。
- 该功能允许用户以一张现有图像为基础,结合文本形貌天生新的图像。这可以用于图像编辑、风格迁移等场景。
- 用户可以指定图像的重绘幅度(Denoising strength)和缩放模式等参数,以控制天生图像与原始图像之间的关系。
- Stable Diffusion WebUI支持多种模子,包罗基础模子(Checkpoint)和辅助模子(如Lora、Embeddings等)。用户可以根据必要切换差别的模子,以获得差别风格或更高质量的天生效果。
- 用户还可以下载和管理自己的模子文件,通过WebUI举行加载和使用。
- Inpaint功能允许用户修复图像中被遮罩的部分或添加新的内容。用户可以使用鼠标在图像上绘制遮罩区域,然后Stable Diffusion WebUI会根据四周图像的内容和用户的提示词重新天生该区域的内容。
- Stable Diffusion WebUI提供了丰富的参数调解选项,可以根据自己的需求和偏好举行个性化设置。例如,调解分类器无指导比例(CFG Scale)以控制模子遵循提示的水平,使用随机种子(Seed)以获得可重复的天生效果等。
- 在天生图像的过程中,Stable Diffusion WebUI提供了实时预览功能,用户可以随时查看天生效果的变革。
- 天生完成后,用户可以将图像导出为常见的文件格式(如PNG、JPEG等),并举行进一步的编辑和处理。
怎样使用WebUI举行Stable Diffusion图像天生
WebUI的常勤奋能与参数设置(txt2img、img2img等)
WebUI生图的典型案例分享与解析(Lora、Embeding)
正向提示词:
- [/code] SFW, masterpiece, best quality, 1 girl, brown hair, brown eyes, smile, standing, dynamic pose, outdoors, city background,
- facial_mark, whisker_markings, 1girl, blue bodysuit, long_hair, pilot_suit, solo, facepaint, headphones, gun, brown_hair, holding_gun, swept_bangs, clothes_writing, bangs, breasts, blue_background, hand_on_hip, animal_print, handgun, brown_eyes, medium_breasts, holding_weapon, bracer, ribbed_bodysuit, weapon, white_gloves, shoulder_pads, holding, high_collar, turtleneck, standing, white_footwear, full_body, pink_lips, gloves, hand_up, pistol, skin_tight, smile
- 负向提示词:
- [code]
复制代码 nsfw, nude, censored, bad anatomy, bad hands, missing fingers, extra fingers, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, three crus, fused feet, fused thigh, extra crus, ugly fingers, horn, cartoon, cg, 3d, unreal, animate, amputation, disconnected limbs
Embeding(文本嵌入/嵌入式向量)
Embeding是一种占用空间极小的模子文件,通常只有几十到几百kb左右。
在概念上,Embeding代表了一种文本嵌入的方式。假如说Checkpoint是一本大字典,限定了我们给的提示词可以大概产生怎么样的效果,那么Embeddings就像是上面的一片小索引,它可以大概精准的指向个别字、词汇的含义,从而提供一个极其高效的索引集合。每个Embedding都相当于给我们将可以大概天生特定效果的提示词整合到一起,在我们使用的时候便输入到“字典”当中,去获取数据输入给模子。
例如,对于一个没有输入Embedding的图片天生效果:
Embedding后:
显着可以看出来embedding后拥有了一些比力有特性性的内容。
Lora(低秩模子)
假如说Embeddings书签,我们能通过书签在字典内索引到一些对一些关键信息,那么LoRa就像夹在书中的彩页,可以在字典之外提供一些新的内容。
对于一个Lora,会通过一些模子举行训练,将一些必要的数据特性写入到Lora当中,直接写清楚了必要信息的所有特点先容,以是大模子对这种信息的相识一定是更为准确的,同时他的影响力度也是要更大一些。
别的,由于Lora是一个颠末数据训练后的模子,里面的数据量比力大,因此Lora比Embeddings所占用空间更大一点,容量大概在100-200MB左右。
对于上面的图片,我们举行Lora后:
假如觉得太过影响原图,我们可以举行力度的降低:
四、ComfyUI与Stable Diffusion
ComfyUI的界说
github:GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.
ComfyUI是一个为Stable Diffusion设计的基于节点的图形用户界面(GUI)。它允许用户通过毗连差别的节点(称为“块”)来构建复杂的图像天生工作流程。这种设计使得ComfyUI成为一个高度模块化、灵活且可定制的工具,实用于必要精细控制和高度自界说的图像天生使命。ComfyUI不仅是一个用户界面,还是一个具有强大功能和高度模块化设计的系统,主要用Python、JS和CSS开辟,其GitHub页面形貌它为“最强大且模块化的稳固扩散GUI、API和后端,带有图形/节点界面”。
ComfyUI的特点
- 图像天生与编辑:可以使用ComfyUI举行复杂的图像天生和深度编辑,提拔创作服从和作品格量。
- 显存优化:相比传统的WebUI,ComfyUI在雷同显存条件下可以处理更大规模、更高品格的图像天生使命,特别实用于对显存需求较高的场景。
- 高效的图像天生:ComfyUI可以大概在显存占用更少的环境下,呈现更宏伟的图像,得当处理复杂和长线项目。
- 可靠的复现本领:通过其独特的工作流程设计,ComfyUI不仅可以大概精准定制图像,还能实现可靠的复现,确保每次天生的图像一致。相对于WebUI而言,可以更快的复刻某个效果。
- 扩展性和管理功能:ComfyUI提供了一系列管理功能,包罗安装、移除、禁用和启用各种自界说节点,方便用户根据需求举行扩展和定制。
- 高度定制性:用户可以通过调解模块毗连来定制工作流程,实现高度个性化的图像天生方案。
ComfyUI的节点式工作流程与优势
节点式工作流程:
ComfyUI采取节点式工作流程设计,用户可以将差别的功能块(节点)通过毗连线组合在一起,形成一个完整的工作流程。这种设计方式使得用户可以灵活地构建和修改图像天生流程,无需编写复杂的代码。节点范例多样,包罗加载检查点模子、输入提示、指定采样器等,可以满足差别的图像天生需求。
优势:
- 灵活性:节点式工作流程使得用户可以根据具体需求自由组合差别的节点,实现高度定制化的图像天生方案。
- 可视化:整个工作流程以可视化的情势显现,用户可以直观地看到每个节点的作用和它们之间的毗连关系,便于理解和调试。
- 复用性:用户可以将自己创建的工作流程保存并分享给他人,或者加载其他用户分享的工作流程,从而进步工作服从和创作灵感。
- 可扩展性:ComfyUI支持安装和使用各种自界说节点,用户可以根据必要扩展新的功能,满足不断变革的创作需求。
- 错误追踪:在发生错误时,节点式工作流程可以大概清楚地体现错误发生的具体位置和缘故原由,便于用户快速定位和解决问题。
使用ComfyUI举行Stable Diffusion图像天生的定制与优化
ComfyUI生图的典型案例分享
ControlNet(图像轮廓控制)
ControlNet 是一个用于控制 AI 图像天生的插件。它使用了一种称为"Conditional Generative Adversarial Networks"(条件天生对抗网络)的技术来天生图像。与传统的天生对抗网络差别,ControlNet 允许用户对天生的图像举行精细的控制。
ControlNet的出现解决了AIGC生图过程中的外形的不可控制性,让AIGC生图拥有了让控制图像天生的本领,让一些AIGC贸易落地成为了真正大概。
openPose输入:
针对最开始天生的角色图,openPose效果:
五、总结与预测
Stable Diffusion、WebUI、ComfyUI的基础知识
本文大概先容了以下内容:
- StableDiffusion生图的基本原理
- WebUI的基础使用
- ComfyUI的基础使用
- Embedding、Lora、Controlnet的基础学习
AIGC生图的挑战
- AIGC天生的图像是否享有版权保护,以及版权归属怎样界定,目前尚无明白的法律规定。这大概导致版权纠纷和侵权问题。
- 文本形貌与视觉图像之间存在巨大差异,AI模子在理解和转换过程中大概产生偏差,导致天生的图像不符合预期。对于创作者而言,必要选择合理的Prompt提示词输入,以及合适的天生模子。
- AIGC生图技术大概被用于天生具有误导性、鄙视性或侵犯隐私的图像,从而引发伦理争媾和法律风险。因此,在推动AIGC技术发展的同时,伦理规范和隐私保护会是一个比力尴尬的问题。
AIGC生图的未来发展与应用前景
- 随着天生对抗网络(GAN)、Diffusion Models等技术的演进,AIGC生图在自动化、数字化和个性化方面将实现质的突破。未来,AIGC将可以大概天生更加逼真、多样且富有创意的图像。
- AIGC生图技术将在更多领域得到应用,通过天生个性化、高质量的图像内容,AIGC将为各行各业带来深刻变革和新的发展机会。
- 基于AIGC技术的SaaS服务、定制化内容天生服务、内容分发平台等新型贸易模式将不断涌现。
参考:
B站第一套系统的AI绘画课!零基础学会Stable Diffusion,这绝对是你看过的最轻易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili
StableDiffusion 基本原理
Stable Diffusion进阶!姥姥都能看懂的ControlNet超全教程! - 优设网 - 学设计上优设
https://zhuanlan.zhihu.com/p/617134893
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |