ToB企服应用市场:ToB评测及商务社交产业平台

标题: Stable Diffusion 3陈诉 [打印本页]

作者: 飞不高    时间: 2024-8-7 08:35
标题: Stable Diffusion 3陈诉
陈诉链接:Stable Diffusion 3: Research Paper — Stability AI


文章目次


弁言

随着人工智能技术的飞速发展,文本到图像生成领域正履历着前所未有的厘革。Stable Diffusion 3(简称SD3)作为这一领域的最新突破,以其杰出的性能和创新的技术架构,引起了业界的广泛关注。本陈诉旨在全面先容Stable Diffusion 3的技术特点、创新点以及市场应用远景。
要点


继宣布 Stable Diffusion 3 的早期预览版之后,又发布了一份研究论文,概述了即将发布的模型的技术细节。
技术概述

Stable Diffusion 3采用了与Sora类似的DiT(Diffusion Transformer)架构,并在排版和提示遵守方面表现优于DALL·E 3、Midjourney v6和Ideogram v1等最先辈的文本到图像生成系统。SD3模型套件的参数范围在800M和8B之间,为用户提供了从轻量级到高性能的差异选择,以满意差异场景的创意需求。
SD3的核心技术是多模态扩散变换器(MMDiT)架构,它使用分离权重聚集来处理图像和语言表示,相比之前的版本,显著改善了文本明白和拼写本领。MMDiT架构联合了DiT和矩形流(RF)形式,使用两个独立的变换器来处理文本和图像嵌入,并在留意力操纵中联合两种模态的序列。这种设计不但提高了模型的文本明白本领,还增强了图像合成的细节处理和风格多样性。

以 SD3 作为基线,根据人类对视觉美学、提示跟随和版式的评估,概述其与竞争模型对比情况
将 Stable Diffusion 3 的输出图像与其他各种开放模型(包罗 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及闭源系统(如 DALL·E 3、Midjourney v6 和 Ideogram v1)举行基于人类反馈的性能对比。在这些测试中,向人类评估者提供了每个模型的示例输出,并要求他们根据模型输出与提示上下文的紧密程度(“提示跟随”)、基于提示的文本呈现程度(“排版”)以及哪幅图像具有更高的美学质量(“视觉美学”)来选择最佳结果。
测试结果表明Stable Diffusion 3在全部上述领域都等于或优于当前最先辈的文本到图像生成系统。在早期的消费者硬件上举行的未优化推理测试中,最大的SD3模型具有8B个参数,适合RTX 4090的24GB VRAM,当使用50个采样步骤时,必要34秒能生成分辨率为1024x1024的图像。此外,Stable Diffusion 3在初次发布期间将有多种变体,从800M到8B的参数模型,以进一步消除硬件障碍。
架构细节

对于文本到图像的生成,SD3模型考虑文本和图像这两种模式,这是为什么将这种新架构称为 MMDiT,指的是它处理多种模式的本领。与之前版本的稳定扩散一样,使用预练习模型来导出符合的文本和图像表示。详细来说,SD3使用三种差异的文本嵌入器(两个 CLIP 模型和 T5)来编码文本表示,并使用改进的自动编码模型来编码图像tokens。

MMDIT

SD3 架构创建在 DiT 的基础上。由于文本和图像嵌入在概念上完全差异,因此对这两种模式使用两组独立的权重。如上图所示,这相当于每种模态都有两个独立的Transformers,但是将两种模态的序列毗连起来举行留意力操纵,如许两种表示都可以在自己的空间中工作,同时考虑另一种表示。

练习过程中测量视觉保真度和文本对齐,MMDiT 架构优于已创建的文本到图像主干,UViT 和 DiT
通过使用这种方法,信息可以在图像和文本标记之间流动,以提高生成的输出中的团体明白和排版。正如在论文中讨论的那样,这种架构还可以轻松扩展到视频等多种模式。

得益于 Stable Diffusion 3 改进的提示跟随功能,模型可以或许创建专注于各种差异主题和质量的图像,同时对图像自己的风格保持高度机动性。


技术创新

Stable Diffusion 3的技术创新重要表现在以下几个方面:
通过重新加权改善整流流量

Stable Diffusion 3 采用整流流 (RF) 公式,其中数据和噪声在练习期间以线性轨迹毗连。这会产生更直的推理路径,从而答应用更少的步骤举行采样。此外,在练习过程中引入了一种新颖的轨迹采样计划。这个schedule给予轨迹的中间部分更多的权重,由于假设这些部分会导致更具挑战性的预测任务。使用多个数据集、指标和采样器设置举行比较,针对 60 个其他扩散轨迹(例如 LDM、EDM 和 ADM)对比测试。结果表明,固然以前的 RF 公式在少步采样方案中表现出改进的性能,但它们的相对性能随着步数的增加而下降。相比之下,重新加权的 RF 变体不断提高性能。
Scaling Rectified Flow Transformer Models


使用重新加权的整流流公式和 MMDiT 主干对文本到图像的合成举行了缩放研究。练习模型范围从具有 15 个blocks的450M 参数到详细 38 个blocks的 8B 参数,并观察到验证损失随着模型巨细和练习步骤的函数而平滑下降(上行)。为了测试这是否转化为模型输出的有意义的改进,还评估了自动图像对齐指标 (GenEval) 以及人类偏好评分 (ELO)(下行)。结果表明这些指标与验证损失之间存在很强的相干性,表明后者是团体模型性能的有力预测因子。此外,扩展趋势没有显示出饱和的迹象,可乐观地以为未来可以继承提高模型的性能。
机动的文本编码器

通过移除用于推理的内存密集型 4.7B 参数 T5 文本编码器,SD3 的内存需求可以显着降低,而性能损失很小。删除此文本编码器不会影响视觉美感(无 T5 的胜率:50%),只会导致文本依从性略有下降(胜率 46%),如上图“性能”部分下所示。然而,建议包罗 T5,以充实使用 SD3 生成书面文本的本领,由于观察到,如果没有 T5,版式生成的性能会大幅下降(胜率 38%),如下例所示:

RF相干论文


市场应用远景

Stable Diffusion 3在文本到图像生成领域的杰出性能和创新技术架构,为其在市场上的广泛应用提供了有力支持。以下是SD3大概的应用场景:
Stable Diffusion 3作为文本到图像生成领域的新里程碑,以其杰出的性能和创新的技术架构,为市场带来了全新的发展机遇。随着技术的不断发展和优化,信赖SD3将在未来为更多领域和行业带来深刻的厘革和创新。
本文参考文章:Stable Diffusion 3陈诉_stable diffusion 3: research paper-CSDN博客
出色文章合辑

基于AARRR模型的灌音笔在电商平台举行推广的建议-CSDN博客
【附gpt4.0升级秘笈】AutoCoder进化:本地Rag知识库引领智能编码新期间-CSDN博客
【附gpt4.0升级秘笈】OpenAI 重磅官宣免登录用 ChatGPT_openai 4.0 免费-CSDN博客
【附升级gpt4.0方案】探索人工智能在医疗领域的革命-CSDN博客
【文末 附 gpt4.0升级秘笈】超越Sora极限,120秒超长AI视频模型诞生-CSDN博客
【附gpt4.0升级秘笈】身为IT人,你为何不停在“高强度的工作节奏”?-CSDN博客
【文末附gpt升级4.0方案】英特尔AI PC的范围性是什么-CSDN博客
【文末附gpt升级4.0方案】FastGPT详解_fastgpt 文件处理模型-CSDN博客
大模型“说胡话”现象辨析_为什么大语言模型会乱说-CSDN博客
英伟达掀起AI摩尔期间海潮,Blackwell GPU引领新篇章-CSDN博客
怎样订阅Midjourney_midjourney付费方式-CSDN博客
睡前故事001:代码的梦境-CSDN博客

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4