飞不高 发表于 2024-8-7 08:35:20

Stable Diffusion 3陈诉

陈诉链接:Stable Diffusion 3: Research Paper — Stability AI
https://img-blog.csdnimg.cn/direct/7f7b1e68b87e4501a7c36d3e0b68f179.png#pic_center

文章目次



[*]要点
[*]表现
[*]架构细节
[*]通过重新加权改善整流流量
[*]Scaling Rectified Flow Transformer Models
[*]机动的文本编码器
[*]RF相干论文
弁言

随着人工智能技术的飞速发展,文本到图像生成领域正履历着前所未有的厘革。Stable Diffusion 3(简称SD3)作为这一领域的最新突破,以其杰出的性能和创新的技术架构,引起了业界的广泛关注。本陈诉旨在全面先容Stable Diffusion 3的技术特点、创新点以及市场应用远景。
要点



[*]发布研究论文,深入探究Stable Diffuison 3的底层技术
[*]基于人类偏好评估,Stable Diffusion 3 在排版和提示遵守方面优于最先辈的文本到图像生成系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1
[*]新的多模态扩散Transformer (MMDiT) 架构对图像和语言表示使用单独的权重聚集,与以前版本的 SD3 相比,这提高了文本明白和拼写本领
继宣布 Stable Diffusion 3 的早期预览版之后,又发布了一份研究论文,概述了即将发布的模型的技术细节。
技术概述

Stable Diffusion 3采用了与Sora类似的DiT(Diffusion Transformer)架构,并在排版和提示遵守方面表现优于DALL·E 3、Midjourney v6和Ideogram v1等最先辈的文本到图像生成系统。SD3模型套件的参数范围在800M和8B之间,为用户提供了从轻量级到高性能的差异选择,以满意差异场景的创意需求。
SD3的核心技术是多模态扩散变换器(MMDiT)架构,它使用分离权重聚集来处理图像和语言表示,相比之前的版本,显著改善了文本明白和拼写本领。MMDiT架构联合了DiT和矩形流(RF)形式,使用两个独立的变换器来处理文本和图像嵌入,并在留意力操纵中联合两种模态的序列。这种设计不但提高了模型的文本明白本领,还增强了图像合成的细节处理和风格多样性。
https://img-blog.csdnimg.cn/direct/127af428c04c4ed6bc8f1387549b4453.png#pic_center
以 SD3 作为基线,根据人类对视觉美学、提示跟随和版式的评估,概述其与竞争模型对比情况
将 Stable Diffusion 3 的输出图像与其他各种开放模型(包罗 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及闭源系统(如 DALL·E 3、Midjourney v6 和 Ideogram v1)举行基于人类反馈的性能对比。在这些测试中,向人类评估者提供了每个模型的示例输出,并要求他们根据模型输出与提示上下文的紧密程度(“提示跟随”)、基于提示的文本呈现程度(“排版”)以及哪幅图像具有更高的美学质量(“视觉美学”)来选择最佳结果。
测试结果表明Stable Diffusion 3在全部上述领域都等于或优于当前最先辈的文本到图像生成系统。在早期的消费者硬件上举行的未优化推理测试中,最大的SD3模型具有8B个参数,适合RTX 4090的24GB VRAM,当使用50个采样步骤时,必要34秒能生成分辨率为1024x1024的图像。此外,Stable Diffusion 3在初次发布期间将有多种变体,从800M到8B的参数模型,以进一步消除硬件障碍。
架构细节

对于文本到图像的生成,SD3模型考虑文本和图像这两种模式,这是为什么将这种新架构称为 MMDiT,指的是它处理多种模式的本领。与之前版本的稳定扩散一样,使用预练习模型来导出符合的文本和图像表示。详细来说,SD3使用三种差异的文本嵌入器(两个 CLIP 模型和 T5)来编码文本表示,并使用改进的自动编码模型来编码图像tokens。
https://img-blog.csdnimg.cn/direct/da2e260274014ebc96415f0b641c324c.png#pic_center
MMDIT

SD3 架构创建在 DiT 的基础上。由于文本和图像嵌入在概念上完全差异,因此对这两种模式使用两组独立的权重。如上图所示,这相当于每种模态都有两个独立的Transformers,但是将两种模态的序列毗连起来举行留意力操纵,如许两种表示都可以在自己的空间中工作,同时考虑另一种表示。
https://img-blog.csdnimg.cn/direct/5180204479a944aab9c519e1f2422146.png#pic_center
练习过程中测量视觉保真度和文本对齐,MMDiT 架构优于已创建的文本到图像主干,UViT 和 DiT
通过使用这种方法,信息可以在图像和文本标记之间流动,以提高生成的输出中的团体明白和排版。正如在论文中讨论的那样,这种架构还可以轻松扩展到视频等多种模式。
https://img-blog.csdnimg.cn/direct/a48cb4c390054063860cedeaf000af1f.png#pic_center
得益于 Stable Diffusion 3 改进的提示跟随功能,模型可以或许创建专注于各种差异主题和质量的图像,同时对图像自己的风格保持高度机动性。
https://img-blog.csdnimg.cn/direct/abccef35ffb047c6902b569bbcf11b4e.png#pic_center
https://img-blog.csdnimg.cn/direct/25268150e3964544b30d9109beb35783.png#pic_center
技术创新

Stable Diffusion 3的技术创新重要表现在以下几个方面:

[*]Rectified Flow模型的优化:SD3对Rectified Flow模型的练习方法举行了改进,通过引入感知相干的标准偏差,优化了噪声采样过程。这使得模型在图像合成上的表现更加精准和高效,从而在高分辨率文本到图像合成方面取得了比传统扩散模型更良好的性能。
[*]Transformer架构的创新:新提出的Transformer架构通太过离图像和文本的权重流,实现了两者之间的双向交互。这种设计不但提高了模型对文本的明白本领,还增强了图像合成的细节处理和风格多样性。此外,MMDiT架构还可以扩展到多模态数据,如视频等,为未来的应用提供了更广阔的空间。
[*]内存密集型T5文本编码器的移除:在SD3中,移除了内存密集型的T5文本编码器,显著减少了模型的内存需求,同时仅伴随少量性能损失。这一改进使得SD3可以或许更高效地运行在消费者硬件上,降低了使用门槛。
通过重新加权改善整流流量

Stable Diffusion 3 采用整流流 (RF) 公式,其中数据和噪声在练习期间以线性轨迹毗连。这会产生更直的推理路径,从而答应用更少的步骤举行采样。此外,在练习过程中引入了一种新颖的轨迹采样计划。这个schedule给予轨迹的中间部分更多的权重,由于假设这些部分会导致更具挑战性的预测任务。使用多个数据集、指标和采样器设置举行比较,针对 60 个其他扩散轨迹(例如 LDM、EDM 和 ADM)对比测试。结果表明,固然以前的 RF 公式在少步采样方案中表现出改进的性能,但它们的相对性能随着步数的增加而下降。相比之下,重新加权的 RF 变体不断提高性能。
Scaling Rectified Flow Transformer Models

https://img-blog.csdnimg.cn/direct/ee1786cedc014c75809ca50450355e63.png#pic_center
使用重新加权的整流流公式和 MMDiT 主干对文本到图像的合成举行了缩放研究。练习模型范围从具有 15 个blocks的450M 参数到详细 38 个blocks的 8B 参数,并观察到验证损失随着模型巨细和练习步骤的函数而平滑下降(上行)。为了测试这是否转化为模型输出的有意义的改进,还评估了自动图像对齐指标 (GenEval) 以及人类偏好评分 (ELO)(下行)。结果表明这些指标与验证损失之间存在很强的相干性,表明后者是团体模型性能的有力预测因子。此外,扩展趋势没有显示出饱和的迹象,可乐观地以为未来可以继承提高模型的性能。
机动的文本编码器

通过移除用于推理的内存密集型 4.7B 参数 T5 文本编码器,SD3 的内存需求可以显着降低,而性能损失很小。删除此文本编码器不会影响视觉美感(无 T5 的胜率:50%),只会导致文本依从性略有下降(胜率 46%),如上图“性能”部分下所示。然而,建议包罗 T5,以充实使用 SD3 生成书面文本的本领,由于观察到,如果没有 T5,版式生成的性能会大幅下降(胜率 38%),如下例所示:
https://img-blog.csdnimg.cn/direct/29fb8d4d7e7b47cb9ff2ad4eb968c83f.png#pic_center
RF相干论文



[*]Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow
[*]Building Normalizing Flows with Stochastic Interpolants
[*]Flow Matching for Generative Modeling
市场应用远景

Stable Diffusion 3在文本到图像生成领域的杰出性能和创新技术架构,为其在市场上的广泛应用提供了有力支持。以下是SD3大概的应用场景:

[*]创意设计:设计师可以使用SD3将文本形貌快速转化为高质量的图像素材,提高设计效率和质量。SD3对文本明白和图像生成的精准控制,使得生成的图像更符合设计师的创意需求。
[*]广告营销:在广告营销领域,SD3可以根据广告文案快速生成符合品牌形象和宣传需求的图像素材。这种快速、高效的图像生成方式可以大大缩短广告制作周期,降低制作成本。
[*]娱乐财产:在游戏、动漫等娱乐财产中,SD3可以根据剧情和脚色设定快速生成高质量的图像素材。这种技术可以加速游戏开发和动漫制作流程,提高产物格量和用户体验。
[*]教诲培训:在教诲培训领域,SD3可以资助学生更好地明白抽象概念和复杂知识。通过将文本形貌转化为直观的图像素材,可以资助学生更快地掌握知识和技能。
Stable Diffusion 3作为文本到图像生成领域的新里程碑,以其杰出的性能和创新的技术架构,为市场带来了全新的发展机遇。随着技术的不断发展和优化,信赖SD3将在未来为更多领域和行业带来深刻的厘革和创新。
本文参考文章:Stable Diffusion 3陈诉_stable diffusion 3: research paper-CSDN博客
出色文章合辑

基于AARRR模型的灌音笔在电商平台举行推广的建议-CSDN博客
【附gpt4.0升级秘笈】AutoCoder进化:本地Rag知识库引领智能编码新期间-CSDN博客
【附gpt4.0升级秘笈】OpenAI 重磅官宣免登录用 ChatGPT_openai 4.0 免费-CSDN博客
【附升级gpt4.0方案】探索人工智能在医疗领域的革命-CSDN博客
【文末 附 gpt4.0升级秘笈】超越Sora极限,120秒超长AI视频模型诞生-CSDN博客
【附gpt4.0升级秘笈】身为IT人,你为何不停在“高强度的工作节奏”?-CSDN博客
【文末附gpt升级4.0方案】英特尔AI PC的范围性是什么-CSDN博客
【文末附gpt升级4.0方案】FastGPT详解_fastgpt 文件处理模型-CSDN博客
大模型“说胡话”现象辨析_为什么大语言模型会乱说-CSDN博客
英伟达掀起AI摩尔期间海潮,Blackwell GPU引领新篇章-CSDN博客
怎样订阅Midjourney_midjourney付费方式-CSDN博客
睡前故事001:代码的梦境-CSDN博客

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Stable Diffusion 3陈诉