qidao123.com技术社区-IT企服评测·应用市场

标题: Stable Diffusion 剖析:探寻 AI 绘画背后的科技秘密 [打印本页]

作者: 大号在练葵花宝典    时间: 2024-7-20 02:19
标题: Stable Diffusion 剖析:探寻 AI 绘画背后的科技秘密
AI 绘画发展史

在评论 Stable Diffusion 之前,有须要先了解 AI 绘画的发展进程。
早在 2012 年,华人科学家吴恩达向导的团队训练出了当时天下上最大的深度学习网络。这个网络能够自主学习识别猫等物体,并在短短三天时间内绘制出了一张含糊但可辨识的猫图。只管这张图片很含糊,但它展示了深度学习在图像识别方面的潜力。

到了 2014 年,加拿大蒙特利尔大学的谷歌科学家 Ian Goodfellow 提出了天生对抗网络 GAN 的算法,这一算法一度成为 AI 天生绘画的主流方向。GAN 的原理是通过训练两个深度神经网络模型——天生器 Generator 和鉴别器 Discriminator ,使得天生器能够天生与真实数据相似的新数据样本,并且鉴别器可以准确地域分天生器天生的假样本和真实数据。GAN 的核心思想是博弈,天生器试图欺骗鉴别器,而鉴别器则努力辨别真伪,二者相互对抗、相互协作,终极实现高质量的数据天生效果。
2016 年,基于 GAN 的第一个文本到图像模型 GAN-INT-CLS 问世,证明白 GAN 在从文本天生图像方面的可行性,为各类基于 GAN 的有条件图像天生模型的涌现打开了大门。然而,GAN 在训练过程中很容易出现不稳定或瓦解的情况,因此难以大规模应用。
同年 10 月,NVIDIA 提出了 ProgressiveGAN,通过渐渐增加神经网络规模天生高分辨率图像,从而降低了模型训练难度并提高了天生质量,为后来的 StyleGAN 的崛起铺平了道路。
2017 年,谷歌发表了著名论文《Attention Is All You Need》,提出了 Transformer 结构,随后在自然语言处理领域大放异彩;虽然 Transformer 是为了办理自然语言处理问题而设计的,但它在图像天生领域也显示了巨大的潜力。2020 年,他们又提出了 ViT 概念,尝试用 Transformer 结构替代传统的卷积神经网络 CNN 结构在计算机视觉中的应用。
2020 年出现了转折。加州大学伯克利分校提出了众所周知的去噪扩散概率模型 DDPM,简化了原有模型的损失函数,将训练目标变革为猜测当前步添加的噪声信息,极大降低了训练难度,并将网络模块由全卷积网络更换为 Unet,提拔了模型的表达能力。
2021 年 1 月,OpenAI 发布了基于 VQVAE 模型的 DALL-E 和 CLIP 模型 Contrastive Language-Image Pre-Training,它们分别用于文本到图像天生和文本与图像之间的对比学习。这让 AI 好像第一次真正“理解”了人类的形貌并进行创作,引发了人们前所未有的对 AI 绘画的热情。2021 年 10 月,谷歌发布的 Disco Diffusion 模型以其惊人的图像天生效果拉开了扩散模型的时代序幕。
2022 年 2 月,由一些开源社区的工程师开发的基于扩散模型的 AI 画图天生器 Disco Diffusion 推出。从那时起,AI 绘画进入了快速发展的轨道,潘多拉魔盒已然打开。Disco Diffusion 相比传统的 AI 模型更加易用,研究职员建立了美满的资助文档和社群,越来越多的人开始关注它。同年 3 月,由 Disco Diffusion 核心开发职员参与开发的 AI 天生器 MidJourney 正式发布。MidJourney 选择搭载在 Discord 平台,借助聊天式的人机交互方式,使得操纵更加简便,而且无需复杂的参数调节,只需向聊天窗口输入文字就可以天生图像。
更重要的是,MidJourney 天生的图片效果非常惊艳,以至于平凡人险些无法分辨出其天生的作品是否是由 AI 绘制的。在 MidJourney 发布 5 个月后,美国科罗拉多州展览会的艺术角逐评选出了效果,一幅名为《太空歌剧院》的画作获得了第一名,然而其并非人类画师的作品,而是由名为 MidJourney 的人工智能创作的。

当参赛者公布这幅作品是由 AI 绘制时,引发了很多人类画家的愤怒和焦虑。
2022 年 4 月 10 日,之前提到的 OpenAI 的 DALL·E 2 发布了。无论是 Disco Diffusion 照旧 MidJourney,仔细观察后仍旧能够看出其是由 AI 天生的,但 DALL·E 2 天生的图像已经无法与人类作品区分开了。
Stable Diffusion

2022 年 7 月 29 日,由 Stability.AI 公司研发的 Stable Diffusion 的 AI 天生器开始内测。人们发现用它天生的 AI 绘画作品质量堪比 DALL·E 2,而且限制更少。Stable Diffusion 的内测共分 4 波,邀请了 15000 名用户参与,仅仅十天后,就有一千七百万张图片通过它天生。最关键的是,Stable Diffusion 的开发公司 Stability AI 秉承着开源的理念,“AI by the people,for the people”,这意味着任何人都可以在本地摆设本身的 AI 绘画天生器,真正实现了每个人“只要你会语言,就能够创造出一幅画”。开源社区 HuggingFace 灵敏适配了它,使得个人摆设变得更加简单;而开源工具 Stable-diffusion-webui 则将多种图像天生工具集成在一起,甚至可以在网络端微调模型、训练个人专属模型,备受好评,在 GitHub 上获得了 3.4 万颗星,使得扩散天生模型彻底走出了大型服务,向个人摆设迈进。
2022 年 11 月,Stable Diffusion 2.0 发布,新版本天生的分辨率提高了四倍,天生速率也更快。
Stable Diffusion 基于 Latent Diffusion Models,将最耗时的扩散过程放在低维度的潜变量空间,大大降低了算力需求以及个人摆设门槛。它使用的潜空间编码缩减因子为 8,换句话说,图像的长和宽被缩减为原来的八分之一,例如一个 512512 的图像在潜空间中直接变为 6464,从而节省了 64 倍的内存!在此基础上,Stable Diffusion 还降低了性能要求。不仅可以快速(以秒计算)天生一张细节丰富的 512512 图像,而且只需一张英伟达消费级的 8GB 2060 显卡。如果没有这个空间压缩转换,它将须要一张 512GB 显存的超等显卡。按照显卡硬件的发展规律,消费者至少须要 8-10 年的时间才能享受到这类应用。这个算法上的重要迭代使得 AI 作画提前进入了每个人的生活。
在本文中,我们探讨了 Stable Diffusion 的发展进程以及对其的介绍。如果你同样是 AI 绘画的爱好者,欢迎和我一起交流探讨。未来,我将持续更新这个系列,分享 Stable Diffusion 的教程以及其他 AI 绘画软件的教学内容。如果您喜欢这些内容,欢迎关注我们!感谢您的阅读,等待在下一期再与您相见!

关于极限科技(INFINI Labs)


极限科技,全称极限数据(北京)科技有限公司,是一家专注于实时搜索与数据分析的软件公司。旗下品牌极限实行室(INFINI Labs)致力于打造极致易用的数据探索与分析体验。
极限科技是一支年轻的团队,采用天然分布式的方式来进行远程协作,员工分布在环球各地,希望通过努力成为中国乃至环球企业大数据实时搜索分析产品的首选,为中国技术品牌输出添砖加瓦。
官网:https://www.infinilabs.com

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4