论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
人工智能
›
人工智能
›
Stable Diffusion 3陈诉
Stable Diffusion 3陈诉
飞不高
金牌会员
|
2024-8-7 08:35:20
|
显示全部楼层
|
阅读模式
楼主
主题
868
|
帖子
868
|
积分
2604
陈诉链接:Stable Diffusion 3: Research Paper — Stability AI
文章目次
要点
表现
架构细节
通过重新加权改善整流流量
Scaling Rectified Flow Transformer Models
机动的文本编码器
RF相干论文
弁言
随着人工智能技术的飞速发展,文本到图像生成领域正履历着前所未有的厘革。Stable Diffusion 3(简称SD3)作为这一领域的最新突破,以其杰出的性能和创新的技术架构,引起了业界的广泛关注。本陈诉旨在全面先容Stable Diffusion 3的技术特点、创新点以及市场应用远景。
要点
发布研究论文,深入探究Stable Diffuison 3的底层技术
基于人类偏好评估,Stable Diffusion 3 在排版和提示遵守方面优于最先辈的文本到图像生成系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1
新的多模态扩散Transformer (MMDiT) 架构对图像和语言表示使用单独的权重聚集,与以前版本的 SD3 相比,这提高了文本明白和拼写本领
继宣布 Stable Diffusion 3 的早期预览版之后,又发布了一份研究论文,概述了即将发布的模型的技术细节。
技术概述
Stable Diffusion 3采用了与Sora类似的DiT(Diffusion Transformer)架构,并在排版和提示遵守方面表现优于DALL·E 3、Midjourney v6和Ideogram v1等最先辈的文本到图像生成系统。SD3模型套件的参数范围在800M和8B之间,为用户提供了从轻量级到高性能的差异选择,以满意差异场景的创意需求。
SD3的核心技术是多模态扩散变换器(MMDiT)架构,它使用分离权重聚集来处理图像和语言表示,相比之前的版本,显著改善了文本明白和拼写本领。MMDiT架构联合了DiT和矩形流(RF)形式,使用两个独立的变换器来处理文本和图像嵌入,并在留意力操纵中联合两种模态的序列。这种设计不但提高了模型的文本明白本领,还增强了图像合成的细节处理和风格多样性。
以 SD3 作为基线,根据人类对视觉美学、提示跟随和版式的评估,概述其与竞争模型对比情况
将 Stable Diffusion 3 的输出图像与其他各种开放模型(包罗 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及闭源系统(如 DALL·E 3、Midjourney v6 和 Ideogram v1)举行基于人类反馈的性能对比。在这些测试中,向人类评估者提供了每个模型的示例输出,并要求他们根据模型输出与提示上下文的紧密程度(“提示跟随”)、基于提示的文本呈现程度(“排版”)以及哪幅图像具有更高的美学质量(“视觉美学”)来选择最佳结果。
测试结果表明Stable Diffusion 3在全部上述领域都等于或优于当前最先辈的文本到图像生成系统。在早期的消费者硬件上举行的未优化推理测试中,最大的SD3模型具有8B个参数,适合RTX 4090的24GB VRAM,当使用50个采样步骤时,必要34秒能生成分辨率为1024x1024的图像。此外,Stable Diffusion 3在初次发布期间将有多种变体,从800M到8B的参数模型,以进一步消除硬件障碍。
架构细节
对于文本到图像的生成,SD3模型考虑文本和图像这两种模式,这是为什么将这种新架构称为 MMDiT,指的是它处理多种模式的本领。与之前版本的稳定扩散一样,使用预练习模型来导出符合的文本和图像表示。详细来说,SD3使用三种差异的文本嵌入器(两个 CLIP 模型和 T5)来编码文本表示,并使用改进的自动编码模型来编码图像tokens。
MMDIT
SD3 架构创建在 DiT 的基础上。由于文本和图像嵌入在概念上完全差异,因此对这两种模式使用两组独立的权重。如上图所示,这相当于每种模态都有两个独立的Transformers,但是将两种模态的序列毗连起来举行留意力操纵,如许两种表示都可以在自己的空间中工作,同时考虑另一种表示。
练习过程中测量视觉保真度和文本对齐,MMDiT 架构优于已创建的文本到图像主干,UViT 和 DiT
通过使用这种方法,信息可以在图像和文本标记之间流动,以提高生成的输出中的团体明白和排版。正如在论文中讨论的那样,这种架构还可以轻松扩展到视频等多种模式。
得益于 Stable Diffusion 3 改进的提示跟随功能,模型可以或许创建专注于各种差异主题和质量的图像,同时对图像自己的风格保持高度机动性。
技术创新
Stable Diffusion 3的技术创新重要表现在以下几个方面:
Rectified Flow模型的优化
:SD3对Rectified Flow模型的练习方法举行了改进,通过引入感知相干的标准偏差,优化了噪声采样过程。这使得模型在图像合成上的表现更加精准和高效,从而在高分辨率文本到图像合成方面取得了比传统扩散模型更良好的性能。
Transformer架构的创新
:新提出的Transformer架构通太过离图像和文本的权重流,实现了两者之间的双向交互。这种设计不但提高了模型对文本的明白本领,还增强了图像合成的细节处理和风格多样性。此外,MMDiT架构还可以扩展到多模态数据,如视频等,为未来的应用提供了更广阔的空间。
内存密集型T5文本编码器的移除
:在SD3中,移除了内存密集型的T5文本编码器,显著减少了模型的内存需求,同时仅伴随少量性能损失。这一改进使得SD3可以或许更高效地运行在消费者硬件上,降低了使用门槛。
通过重新加权改善整流流量
Stable Diffusion 3 采用整流流 (RF) 公式,其中数据和噪声在练习期间以线性轨迹毗连。这会产生更直的推理路径,从而答应用更少的步骤举行采样。此外,在练习过程中引入了一种新颖的轨迹采样计划。这个schedule给予轨迹的中间部分更多的权重,由于假设这些部分会导致更具挑战性的预测任务。使用多个数据集、指标和采样器设置举行比较,针对 60 个其他扩散轨迹(例如 LDM、EDM 和 ADM)对比测试。结果表明,固然以前的 RF 公式在少步采样方案中表现出改进的性能,但它们的相对性能随着步数的增加而下降。相比之下,重新加权的 RF 变体不断提高性能。
Scaling Rectified Flow Transformer Models
使用重新加权的整流流公式和 MMDiT 主干对文本到图像的合成举行了缩放研究。练习模型范围从具有 15 个blocks的450M 参数到详细 38 个blocks的 8B 参数,并观察到验证损失随着模型巨细和练习步骤的函数而平滑下降(上行)。为了测试这是否转化为模型输出的有意义的改进,还评估了自动图像对齐指标 (GenEval) 以及人类偏好评分 (ELO)(下行)。结果表明这些指标与验证损失之间存在很强的相干性,表明后者是团体模型性能的有力预测因子。此外,扩展趋势没有显示出饱和的迹象,可乐观地以为未来可以继承提高模型的性能。
机动的文本编码器
通过移除用于推理的内存密集型 4.7B 参数 T5 文本编码器,SD3 的内存需求可以显着降低,而性能损失很小。删除此文本编码器不会影响视觉美感(无 T5 的胜率:50%),只会导致文本依从性略有下降(胜率 46%),如上图“性能”部分下所示。然而,建议包罗 T5,以充实使用 SD3 生成书面文本的本领,由于观察到,如果没有 T5,版式生成的性能会大幅下降(胜率 38%),如下例所示:
RF相干论文
Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow
Building Normalizing Flows with Stochastic Interpolants
Flow Matching for Generative Modeling
市场应用远景
Stable Diffusion 3在文本到图像生成领域的杰出性能和创新技术架构,为其在市场上的广泛应用提供了有力支持。以下是SD3大概的应用场景:
创意设计
:设计师可以使用SD3将文本形貌快速转化为高质量的图像素材,提高设计效率和质量。SD3对文本明白和图像生成的精准控制,使得生成的图像更符合设计师的创意需求。
广告营销
:在广告营销领域,SD3可以根据广告文案快速生成符合品牌形象和宣传需求的图像素材。这种快速、高效的图像生成方式可以大大缩短广告制作周期,降低制作成本。
娱乐财产
:在游戏、动漫等娱乐财产中,SD3可以根据剧情和脚色设定快速生成高质量的图像素材。这种技术可以加速游戏开发和动漫制作流程,提高产物格量和用户体验。
教诲培训
:在教诲培训领域,SD3可以资助学生更好地明白抽象概念和复杂知识。通过将文本形貌转化为直观的图像素材,可以资助学生更快地掌握知识和技能。
Stable Diffusion 3作为文本到图像生成领域的新里程碑,以其杰出的性能和创新的技术架构,为市场带来了全新的发展机遇。随着技术的不断发展和优化,信赖SD3将在未来为更多领域和行业带来深刻的厘革和创新。
本文参考文章:Stable Diffusion 3陈诉_stable diffusion 3: research paper-CSDN博客
出色文章合辑
基于AARRR模型的灌音笔在电商平台举行推广的建议-CSDN博客
【附gpt4.0升级秘笈】AutoCoder进化:本地Rag知识库引领智能编码新期间-CSDN博客
【附gpt4.0升级秘笈】OpenAI 重磅官宣免登录用 ChatGPT_openai 4.0 免费-CSDN博客
【附升级gpt4.0方案】探索人工智能在医疗领域的革命-CSDN博客
【文末 附 gpt4.0升级秘笈】超越Sora极限,120秒超长AI视频模型诞生-CSDN博客
【附gpt4.0升级秘笈】身为IT人,你为何不停在“高强度的工作节奏”?-CSDN博客
【文末附gpt升级4.0方案】英特尔AI PC的范围性是什么-CSDN博客
【文末附gpt升级4.0方案】FastGPT详解_fastgpt 文件处理模型-CSDN博客
大模型“说胡话”现象辨析_为什么大语言模型会乱说-CSDN博客
英伟达掀起AI摩尔期间海潮,Blackwell GPU引领新篇章-CSDN博客
怎样订阅Midjourney_midjourney付费方式-CSDN博客
睡前故事001:代码的梦境-CSDN博客
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
飞不高
金牌会员
这个人很懒什么都没写!
楼主热帖
Java集合的lastlastIndexOfSubList()方 ...
WPF开发经验-实现自带触控键盘的TextBo ...
如何在 K8S 集群范围使用 imagePullSec ...
微信小程序集合3(百度小说+电商+仿哗 ...
mysql总结
AnimateDiff论文解读-基于Stable Diffu ...
【关系型数据库】事务特性及事务隔离级 ...
Python批量采集百度资讯文章,如何自定 ...
自从用了 EasyExcel,导入导出 Excel ...
Doris(三) -- 索引
标签云
挺好的
服务器
快速回复
返回顶部
返回列表