论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
FLUX | 逾越SD3、媲美Midjourney的顶级AI画图模型 ...
FLUX | 逾越SD3、媲美Midjourney的顶级AI画图模型
忿忿的泥巴坨
论坛元老
|
2024-8-25 00:05:34
|
显示全部楼层
|
阅读模式
楼主
主题
2029
|
帖子
2029
|
积分
6087
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本文包含大量AI干货
阅读完大约必要8分钟
1.引言
在已往的两年中,第一个公开发布且功能齐备的图像合成模型 Stable Diffusion 完全占据了主导职位,一大批竞争对手(PixArt Alpha/Sigma/AuraFlow)试图效仿SD的成功,终极也未能撼动。
不过随着FLUX.1模型的发布,这个最强开源文生图模型的头衔,大概要易主了。
Flux 号称是迄今为止最大的 SOTA 开源文本转图像模型,由
Black Forest Labs
(黑丛林实行室,Stable Diffusion 的原始核心团队)开发,现已在Fal上发布,得到众多AI开发者好评。
Flux 凭借令人印象深刻的12B参数突破了创造力和性能的界限,其效果呈现出让人联想到Midjourney 的美感。FLUX 代表了图像合成技术在快速理解、对象识别、词汇、写作本领等方面的显著进步, 标志着 AI 生成艺术范畴的庞大进步。
2. FLUX.1 有何特别之处?
FLUX.1 接纳了类似 Stable Diffusion 3 的架构,并新引入了 DoubleStreamBlock 结构,生成质量逾越了 Stable Diffusion 3,甚至不逊色于闭源的 Midjourney V6。
与多数依赖扩散的文本到图像模型差别,FLUX.1 运用了名为“流匹配”的升级技术。扩散模型从随机起点徐徐消除噪声来创建图像,而流匹配则接纳更直接的方式,学习将噪声准确变更为真实图像所需的操纵。这种方法差异作育了独特美感,在速率和控制方面独具优势。
FLUX.1 模型在快速响应、视觉质量、图像细节及输出多样性上体现良好。它能高精度处置处罚文本,忠实遵照复杂的场景构图指令,生成手部也比以往模型更正确。
FLUX.1 重新定义了 AI 生成艺术的大概性
,其显著特点如下:
(1)良好的文本理解本领:
能够轻松应对复杂的单词和重复字母。
(2)先进的人体解剖学与照片真实感:
生成高度传神且符合解剖学的图像。
(3)精彩的复杂构图本领:
善于解读和执行对象放置及场景构图的详细说明,能依据经心设计的提示正确生成场景。
(4)传神的手部生成:
以往生成传神的手是AI画图模型的难题,FLUX 在此取得庞大突破,能生成手指数目和位置较正确的手,虽非精美绝伦,但相比以往模型有显著进步。
(5)高效性:
dev 和 schnell 版本在包管与专业版相似质量的同时,体积更小、速率更快,利于加快迭代和实行。
(6)丰富的多样性:
能够创造从照片写实到绘画再到插图等多种艺术风格,为艺术表达拓展新途径。
3. 一些令人印象深刻的特定范畴
3.1良好的文本理解本领
与经常弄乱相似字母的AI绘画旧模型(SD1.5/SDXL/SD3)差别,Flux 可以处置处罚带有重复字母的棘手单词,使得它非常顺应必要正确文本的设计。看看这款 “Black Forest Flux Schnell ”蛋糕:
3.2 复杂的构图
Flux
非常擅长遵照复杂的指令,确定图像中事物的位置。例如,给出提示“三个魔法师站在黄色桌子上,每个人都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个标志,上面写着‘AI’;中间,一个穿着赤色长袍的女巫拿着一个标志,上面写着‘is’;右边,一个穿着蓝色长袍的巫师拿着一个标志,上面写着‘cool’”,Flux 完善地创造了这个场景:
3.3 传神的手部生成
手部对于各大AI画图模型来说很难识别,但 Flux 做得相称不错。通常,你会在正确的位置看到正确数目的手指。它并不完善,但这是一个很大的进步——它始终比我们实行过的任何其他开放文本转图像模型都要好。
3.4 “流”:一种新的视觉语言
FLUX.1 最引人注目的方面或许是它的“流动”美学,这是底层流动匹配技术的效果。这赋予图像一种独特的有机运动感和流动性,几乎就像像素自己在运动一样。
例:
带有梵高风格漩涡状皮毛图案的狗
这只狗的皮毛中蕴含的能量几乎是可以触摸到的,并与让人联想到星夜的油漆漩涡融为一体。
“流动”美学很难定义,但一眼就能辨认出来。它让人联想到油画和喷笔等传统艺术技巧,赋予图像梦幻般的质感,让 FLUX.1 与众差别。
以下是更多示例
4. 如安在ComfyUI上利用 FLUX
你可以亲眼看看这些模型有多么棒
ComfyUI FLUX 由comfyanonymous发布,感谢他们对社区的贡献,FLUX 模型可以无缝集成到 ComfyUI 框架中,以实现直观的 AI 生成艺术创作。
4.1 官方模型介绍
BFL 已发布三种模型版本:
(1)FLUX.1 [pro]:
,FLUX.1 系列的巅峰之作,开始进的图像生成模型,仅通过 API 提供的闭源版本 。
Fal-ai
|
Replicate
(2)FLUX.1 [dev]
:基础模型,开源且拥有非商业允许,供社区在此基础上进行构建。
Fal-ai
。
Replicate
(3)FLUX.1 [schnell]
:基础模型的精简版本,运行速率最高可提高 10 倍。Apache 2 允许。
Fal-ai
。
Replicate
4.2 下载模型
利用 FLUX 不仅必要利用 FLUX 模型,还必要下载 CLIP 以及对应的 VAE;
大家可以根据下方的官方地址下载,本文末尾也附有夸克网盘的下载链接,网盘中有本文用到的全部模型、工作流等内容。
(1)下载 Flux 模型:
模型存放位置:ComfyUI/models/unet/目次。
FLUX 模型有四个可选,FLUX.1 [dev] 、FLUX.1 [dev] fp8、FLUX.1 [schnell]、FLUX.1 [schnell] fp8;
① FLUX.1 [dev] :官方基础模型, fp16精度,开源最强模型,如果你的 RAM 超过 32GB,则推荐利用这个。
下载地址: https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
② FLUX.1 [dev] fp8:官方基础模型的 fp8精度版本,最低 12G 显存可跑,如果RAM较低 ,可以用这个
下载地址: https://huggingface.co/Comfy-Org/flux1-dev/tree/main
③ FLUX.1 [schnell]:官方基础模型4 步蒸馏模型, fp16精度,大多数显卡可跑, 适用于快速当地开发。
下载地址: https://huggingface.co/black-forest-labs/FLUX.1-schnell
④ FLUX.1 [schnell] fp8:官方基础模型4 步蒸馏模型的 fp8精度版本,但能顺应更低的显卡配置。
下载地址: https://huggingface.co/Kijai/flux-fp8/blob/main/flux1-schnell-fp8.safetensors
(2)下载 CLIP 模型:
模型存放目次: ComfyUI/models/clip/
需下载 clip_l.safetensors和t5xxl_fp16.safetensors,如果你的显存不足 32GB,则发起利用 可以用fp8精度的t5xxl_fp8_e4m3fn.safetensors替换掉 t5xxl_fp8_e4m3fn.safetensors,这两个模型和 SD3 利用的是一样的,如果文件夹中已有,可以不用下载
下载地址: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
(3)下载 VAE 模型:
模型存放目次:ComfyUI/models/vae
下载地址:
https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main
4.3 ComfyUI FLUX 工作流程
4.3.1 通用快速工程
与之前的扩散模型相比,FLUX 的利用极为直观。即便与 Ideogram 或 MidJourney 相比,它也能很好地理解我们的提示,几乎无需进行机器对文本的理解工作。不过,我们确实有一些获取最佳效果的技巧。
起首,发起按提示中的术语顺序分列并利用逗号。提示中的单词顺序与生成终极图像时的权重直接对应,以是主要主题应始终靠近提示开头。若想添加更多细节,利用逗号可将术语分开,便于模型读取。就像人类一样,它必要这个标点符号来确定子句在句子中的起始位置。在 FLUX 中,逗号似乎比在 Stable Diffusion 中更为紧张。
此外,本提示中的细节(单词)数目、图像中相应的细节数目以及终极场景构图质量之间存在明显的权衡关系。更多的单词似乎能提高提示正确度,但会阻碍模型在原始主题之上生成更多对象或特征。例如,仅改变一个单词就能改变人的头发颜色,但要改变其整个装扮,就必要在提示中添加一个包含大量细节的短语或句子。然而,这个短语大概会破坏看不见的扩散过程,使模型难以正确重现所需场景。
4.3.2长宽比
FLUX 针对多种宽高比和差别分辨率的图像进行了训练,图像尺寸在 0.2 到 2 兆像素之间。虽然如此,但它在某些特定范畴和特定分辨率下的体现确实更为精彩。根据利用履历来看,在 1024 x 1024 及更大分辨率下它的体现良好,而 512 x 512 的图像整体细节较少。此外,颠末大量测试,发现以下分辨率出图效果非常抱负。
674 x 1462(iPhone/常见智能手机宽高比为 9:19.5)
768 x 1360(默认)
896 x 1152
1024 x 1280
1080 x 1920(常见壁纸比例)
5. 结束语
本文中,我们详细阐述了Flux部分功能,在研究了已发布的成果并亲自体验该模型后,可以确定地说,FLUX 是现在最为强盛、最具本领的图像生成模型。它代表着这些技术的显著进步,也让我们看到这些模型将来大概实现的功能愈发无限。
☞加入
AI知识星球
【AIGC(文本图像视频)特训营】,一起修炼AI
☞关注
公众号
【AIGC前沿洞察】,
回复“FLUX”获取Flux工作流,
发送"AI"更可获取
超多免费AI资源包
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
忿忿的泥巴坨
论坛元老
这个人很懒什么都没写!
楼主热帖
axios 传递参数的方式(data 与 params ...
Swift字符串操作-持续更新-2022 ...
【iOS逆向与安全】frida-trace入门 ...
springmvc异常处理解析#ExceptionHandl ...
Kubernetes(K8S) Controller - Deploym ...
食品商城网站设计—食品商城购物网站(8 ...
MVCC - Read View的可见性判断理解 ...
隐匿自己的c2服务器(一)
最佳实践-使用Github Actions来构建跨 ...
PHP001
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
Java
虚拟化与私有云
快速回复
返回顶部
返回列表