AIGC-初识SD

打印 上一主题 下一主题

主题 934|帖子 934|积分 2817

从本篇文章开始将带领大家进入AIGC的世界,重要的工具选择SD,最直接的缘故原由是它免费开源,且机动性很高,大部门人在自己电脑就可以直接运行,而不用去其他平台费钱。
是什么

我们在学习一个新东西的时候,总是会先问它是什么,有什么用处,因此我们也先简朴先容一下SD。SD全名也叫Stable Diffusion,它 是一种基于深度学习的生成模型,用于生成高质量的图像。它是由CompVis研究团队(属于德国慕尼黑大学的计算机视觉研究小组)开辟,并由Stability AI支持的开源项目,初次在2022年发布。
它属于扩散模型(Diffusion Models)的一种,采用了扩散过程(Diffusion Process)和去噪过程(Denoising Process)的原理,将随机噪声渐渐转化为具有特定特征(由我们输入的文本形貌决定,又称Prompt)的图片。
核心原理

Stable Diffusion 的生成机制基于一种叫做扩散概率模型的框架,具体可以分为以下两步:

  • 噪声扩散(Forward Process)

    • 将一张真实图片渐渐参加随机噪声,直到它完全变成一张随机噪声图片,丢失原图的特征。

  • 去噪生成(Reverse Process)

    • 模型学习从随机噪声中一步步恢复图片的过程。

但是原始的扩散模型都是在图像空间中完成的,那么如何才气通过文本形貌来完成图片生成过程呢?这里就不得不用到另一个技术了,那就是使用 CLIP 等模型的文本编码器,将文本信息转化为文本表征,并通过交织注意力机制将这些文本信息融入到图像信息空间中,最终实现文本生图。 除此之外,为了可以或许低落显存的占用,还使用VAE模型来压缩和恢复图像,将图像映射到维度更低的潜空间,后面的扩散和去噪过程都在潜空间中举行,而非原始的图像空间。
更多的细节不在本篇博客叙述,有爱好的话可以参考以下链接深入学习:
深入浅出完备解析Stable Diffusion(SD)核心底子知识 - 知乎
应用场景

Stable Diffusion 在许多范畴发挥着重要作用,以下是一些重要应用场景:
(1) 艺术创作


  • 计划师和艺术家可以通过文本形貌生成具有艺术风格的作品,大幅进步创作效率。
  • 提供灵感泉源,如创作角色计划、配景概念图等。
(2) 游戏与影视


  • 为游戏或电影制作快速生成场景草图、角色设定和道具计划。
  • 应用于预可视化(Pre-visualization)环节,加速开辟过程。
(3) 营销与广告


  • 快速生成符合品牌调性的图像或广告素材。
  • 用于社交媒体内容创作,提升视觉吸引力。
(4) 医学与科研


  • 医学影像处理和增强,或用于合成医疗场景图。
  • 可用于天文、化学等范畴的图像模拟和数据可视化。
(5) 教育与科普


  • 用于创作教育材料,如图解、插图和可视化内容。
  • 用图片辅助讲授或科普内容传播。
与其他生成模型的对比

除了SD外,我们知道尚有许多良好的生成模型,下面是它们的扼要对比:
模型特点缺点Stable Diffusion开源机动,生成结果良好,资源需求较低高质量生成需优化 Prompt,细节控制较难DALL·E 2图像质量较高,支持复杂场景,用户门槛低商业用途需付费,且模型非开源MidJourney艺术风格化生成结果惊艳,适合艺术家创作免费用户有限制,训练不支持自定义GAN传统生成模型,适合特定任务(如面部生成)难以生成多样化图片,训练复杂且不稳固 怎么用

目前使用SD模型的方法有两大类:UI界面和代码运行,由于代码对于大部门人来说都很难上手,因此此次先先容通过UI界面画图的流程。
目前较为盛行的UI画图重要有许多,本篇博客重要先容Web UI和Confyui,前者在入门阶段会比较好用,但是后期要是真要作为生产力工具的话,还是推荐Confyui。
Web Ui使用体验

Web UI是一种很方便获取结果的工具,我们可以在B站上搜刮秋叶大佬,已经提供了封装好的模块,开箱即用,具体过程可以参考Webui包安装。
下面我们就来看一个最简朴的文生图如何操作。当我们启动后,可以看到这样一个界面:

由于已经内置了一些模型,因此我们只需要在正向提示词和负向提示词框里写下我们的形貌即可。
  1. 正向提示词:1girl,absurdres,
  2. 负向提示词:lowres,Multiple people,bad body,disfigured,disconnected limbs,(fat:1.2),bad hands,missing fingers,cross-eyed,extra legs,too many fingers,extra arms,
复制代码
鼠标向下滑动,我们还可以看到生成选项中,可以选择采样方法,宽度,高度,引导系数以及随机种子等,目前先默认不变。

末了点击生成,就可以得到一张图片了。

Confy Ui使用体验

和Web UI差别,它是一种节点式的工具,同样可以使用秋叶大佬提供的模块[ConfyUi包安装](【AI绘画】ComfyUI整合包发布!解压即用 一键启动 工作流版界面 超多节点 ☆更新 ☆汉化 秋叶整合包_哔哩哔哩_bilibili),我们先直接来看一个最简朴的文生图是什么样的。

图中的工作流由7个节点构成:


  • Checkpoint加载器:用于加载SD模型;
  • Clip文本编码器(上):用于编写正面提示词;
  • Clip文本编码器(下):用于编写负面提示词;
  • 空Latent:设置图片大小与批次;
  • K采样器:负责从噪声中恢复到潜空间;
  • VAE解码:从潜空间中解码成图片;
  • 生存图像:将生成的图像举行生存;
  1. 正向提示词:beautiful scenery nature glass bottle landscape, purple galaxy bottle,
  2. 负向提示词:text, watermark,
复制代码

我们可以看到其和Web UI中的选项是逐一对应的,只不过采取了这种节点毗连的方式而已,一旦上手将是很好用的工具。
总结

末了我们再总结一下SD模型的优点与局限性:


  • 优点

    • 自由度高:可以或许根据各种输入条件生成多样化的结果。
    • 资源开源:低落了技术门槛,社区支持活泼。
    • 生成速率快:相较于传统的 GAN 模型,Stable Diffusion 生成图片的速率较快。
    • 适配性强:可以定制化训练,比方风格化模型或特定范畴应用。

  • 局限性

    • 需要高质量 Prompt:生成图片的结果高度依赖输入形貌,初学者大概需要时间学习如何撰写有效的 Prompt。
    • 细节控制较难:对于复杂场景,大概出现细节差别等或内容混乱。
    • 偏差题目:模型大概会受到训练数据集中的偏差影响,生成的图像大概存在伦理或文化上的争议。
    • 算力依赖:只管优化后可以在普通显卡上运行,但训练新模型或生成高分辨率图片仍需较高算力。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大连全瓷种植牙齿制作中心

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表