忿忿的泥巴坨 发表于 2024-8-25 00:05:34

FLUX | 逾越SD3、媲美Midjourney的顶级AI画图模型

本文包含大量AI干货
阅读完大约必要8分钟

1.引言

在已往的两年中,第一个公开发布且功能齐备的图像合成模型 Stable Diffusion 完全占据了主导职位,一大批竞争对手(PixArt Alpha/Sigma/AuraFlow)试图效仿SD的成功,终极也未能撼动。

不过随着FLUX.1模型的发布,这个最强开源文生图模型的头衔,大概要易主了。

Flux 号称是迄今为止最大的 SOTA 开源文本转图像模型,由Black Forest Labs(黑丛林实行室,Stable Diffusion 的原始核心团队)开发,现已在Fal上发布,得到众多AI开发者好评。

Flux 凭借令人印象深刻的12B参数突破了创造力和性能的界限,其效果呈现出让人联想到Midjourney 的美感。FLUX 代表了图像合成技术在快速理解、对象识别、词汇、写作本领等方面的显著进步, 标志着 AI 生成艺术范畴的庞大进步。

2. FLUX.1 有何特别之处?

FLUX.1 接纳了类似 Stable Diffusion 3 的架构,并新引入了 DoubleStreamBlock 结构,生成质量逾越了 Stable Diffusion 3,甚至不逊色于闭源的 Midjourney V6。

与多数依赖扩散的文本到图像模型差别,FLUX.1 运用了名为“流匹配”的升级技术。扩散模型从随机起点徐徐消除噪声来创建图像,而流匹配则接纳更直接的方式,学习将噪声准确变更为真实图像所需的操纵。这种方法差异作育了独特美感,在速率和控制方面独具优势。

FLUX.1 模型在快速响应、视觉质量、图像细节及输出多样性上体现良好。它能高精度处置处罚文本,忠实遵照复杂的场景构图指令,生成手部也比以往模型更正确。

FLUX.1 重新定义了 AI 生成艺术的大概性,其显著特点如下:
(1)良好的文本理解本领:能够轻松应对复杂的单词和重复字母。
(2)先进的人体解剖学与照片真实感:生成高度传神且符合解剖学的图像。
(3)精彩的复杂构图本领:善于解读和执行对象放置及场景构图的详细说明,能依据经心设计的提示正确生成场景。
(4)传神的手部生成:以往生成传神的手是AI画图模型的难题,FLUX 在此取得庞大突破,能生成手指数目和位置较正确的手,虽非精美绝伦,但相比以往模型有显著进步。
(5)高效性:dev 和 schnell 版本在包管与专业版相似质量的同时,体积更小、速率更快,利于加快迭代和实行。
(6)丰富的多样性:能够创造从照片写实到绘画再到插图等多种艺术风格,为艺术表达拓展新途径。

3. 一些令人印象深刻的特定范畴

3.1良好的文本理解本领

与经常弄乱相似字母的AI绘画旧模型(SD1.5/SDXL/SD3)差别,Flux 可以处置处罚带有重复字母的棘手单词,使得它非常顺应必要正确文本的设计。看看这款 “Black Forest Flux Schnell ”蛋糕:
https://i-blog.csdnimg.cn/direct/cc7c22cb36aa4604b39f850a0e3371f1.png
3.2 复杂的构图

Flux非常擅长遵照复杂的指令,确定图像中事物的位置。例如,给出提示“三个魔法师站在黄色桌子上,每个人都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个标志,上面写着‘AI’;中间,一个穿着赤色长袍的女巫拿着一个标志,上面写着‘is’;右边,一个穿着蓝色长袍的巫师拿着一个标志,上面写着‘cool’”,Flux 完善地创造了这个场景:
https://i-blog.csdnimg.cn/direct/99c06ef781714194aa8a1c1c7abb6996.png
3.3 传神的手部生成

手部对于各大AI画图模型来说很难识别,但 Flux 做得相称不错。通常,你会在正确的位置看到正确数目的手指。它并不完善,但这是一个很大的进步——它始终比我们实行过的任何其他开放文本转图像模型都要好。
https://i-blog.csdnimg.cn/direct/b31cde47df6a4e3095605885a340cc05.jpeg

3.4 “流”:一种新的视觉语言

FLUX.1 最引人注目的方面或许是它的“流动”美学,这是底层流动匹配技术的效果。这赋予图像一种独特的有机运动感和流动性,几乎就像像素自己在运动一样。
例:带有梵高风格漩涡状皮毛图案的狗
https://i-blog.csdnimg.cn/direct/dd4906d8e2b74206ad7d74d7c6bba8eb.webp
这只狗的皮毛中蕴含的能量几乎是可以触摸到的,并与让人联想到星夜的油漆漩涡融为一体。
“流动”美学很难定义,但一眼就能辨认出来。它让人联想到油画和喷笔等传统艺术技巧,赋予图像梦幻般的质感,让 FLUX.1 与众差别。

以下是更多示例
https://i-blog.csdnimg.cn/direct/76c72f5a5a924b9ba32f147879107d32.png
https://i-blog.csdnimg.cn/direct/40322036143c444984eabddb923e8362.png

https://i-blog.csdnimg.cn/direct/bb570588aa6641979f6266236c698039.png

https://i-blog.csdnimg.cn/direct/fd62da52e59846edb28b5f5fcd3cd278.png

https://i-blog.csdnimg.cn/direct/6a5b06dffa7c408ca52ab6492c8c5f33.png

https://i-blog.csdnimg.cn/direct/e75dda1570cb4b20885179c052e9deec.webp



4. 如安在ComfyUI上利用 FLUX


你可以亲眼看看这些模型有多么棒

ComfyUI FLUX 由comfyanonymous发布,感谢他们对社区的贡献,FLUX 模型可以无缝集成到 ComfyUI 框架中,以实现直观的 AI 生成艺术创作。

4.1 官方模型介绍

  BFL 已发布三种模型版本:
(1)FLUX.1 :,FLUX.1 系列的巅峰之作,开始进的图像生成模型,仅通过 API 提供的闭源版本 。 Fal-ai| Replicate
(2)FLUX.1 :基础模型,开源且拥有非商业允许,供社区在此基础上进行构建。Fal-ai。Replicate
(3)FLUX.1 :基础模型的精简版本,运行速率最高可提高 10 倍。Apache 2 允许。Fal-ai。Replicate

4.2 下载模型

利用 FLUX 不仅必要利用 FLUX 模型,还必要下载 CLIP 以及对应的 VAE;
大家可以根据下方的官方地址下载,本文末尾也附有夸克网盘的下载链接,网盘中有本文用到的全部模型、工作流等内容。
(1)下载 Flux 模型:
   模型存放位置:ComfyUI/models/unet/目次。
FLUX 模型有四个可选,FLUX.1 、FLUX.1 fp8、FLUX.1 、FLUX.1 fp8;
① FLUX.1 :官方基础模型, fp16精度,开源最强模型,如果你的 RAM 超过 32GB,则推荐利用这个。
下载地址: https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
② FLUX.1 fp8:官方基础模型的 fp8精度版本,最低 12G 显存可跑,如果RAM较低 ,可以用这个
下载地址: https://huggingface.co/Comfy-Org/flux1-dev/tree/main
③ FLUX.1 :官方基础模型4 步蒸馏模型, fp16精度,大多数显卡可跑, 适用于快速当地开发。
下载地址: https://huggingface.co/black-forest-labs/FLUX.1-schnell
④ FLUX.1 fp8:官方基础模型4 步蒸馏模型的 fp8精度版本,但能顺应更低的显卡配置。
下载地址: https://huggingface.co/Kijai/flux-fp8/blob/main/flux1-schnell-fp8.safetensors
(2)下载 CLIP 模型:
   模型存放目次: ComfyUI/models/clip/
需下载 clip_l.safetensors和t5xxl_fp16.safetensors,如果你的显存不足 32GB,则发起利用 可以用fp8精度的t5xxl_fp8_e4m3fn.safetensors替换掉 t5xxl_fp8_e4m3fn.safetensors,这两个模型和 SD3 利用的是一样的,如果文件夹中已有,可以不用下载
下载地址: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
(3)下载 VAE 模型:
   模型存放目次:ComfyUI/models/vae
下载地址:
https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main

4.3 ComfyUI FLUX 工作流程

https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fd42q0gvggm.feishu.cn%2Fspace%2Fapi%2Fbox%2Fstream%2Fdownload%2Fasynccode%2F&pos_id=QhrA8WnJ

4.3.1 通用快速工程

与之前的扩散模型相比,FLUX 的利用极为直观。即便与 Ideogram 或 MidJourney 相比,它也能很好地理解我们的提示,几乎无需进行机器对文本的理解工作。不过,我们确实有一些获取最佳效果的技巧。

起首,发起按提示中的术语顺序分列并利用逗号。提示中的单词顺序与生成终极图像时的权重直接对应,以是主要主题应始终靠近提示开头。若想添加更多细节,利用逗号可将术语分开,便于模型读取。就像人类一样,它必要这个标点符号来确定子句在句子中的起始位置。在 FLUX 中,逗号似乎比在 Stable Diffusion 中更为紧张。

此外,本提示中的细节(单词)数目、图像中相应的细节数目以及终极场景构图质量之间存在明显的权衡关系。更多的单词似乎能提高提示正确度,但会阻碍模型在原始主题之上生成更多对象或特征。例如,仅改变一个单词就能改变人的头发颜色,但要改变其整个装扮,就必要在提示中添加一个包含大量细节的短语或句子。然而,这个短语大概会破坏看不见的扩散过程,使模型难以正确重现所需场景。

4.3.2长宽比

FLUX 针对多种宽高比和差别分辨率的图像进行了训练,图像尺寸在 0.2 到 2 兆像素之间。虽然如此,但它在某些特定范畴和特定分辨率下的体现确实更为精彩。根据利用履历来看,在 1024 x 1024 及更大分辨率下它的体现良好,而 512 x 512 的图像整体细节较少。此外,颠末大量测试,发现以下分辨率出图效果非常抱负。


[*] 674 x 1462(iPhone/常见智能手机宽高比为 9:19.5)
[*] 768 x 1360(默认)
[*] 896 x 1152
[*] 1024 x 1280
[*] 1080 x 1920(常见壁纸比例)

5. 结束语

本文中,我们详细阐述了Flux部分功能,在研究了已发布的成果并亲自体验该模型后,可以确定地说,FLUX 是现在最为强盛、最具本领的图像生成模型。它代表着这些技术的显著进步,也让我们看到这些模型将来大概实现的功能愈发无限。

☞加入AI知识星球【AIGC(文本图像视频)特训营】,一起修炼AI
☞关注公众号【AIGC前沿洞察】,回复“FLUX”获取Flux工作流,发送"AI"更可获取超多免费AI资源包

https://img-blog.csdnimg.cn/img_convert/ae456cab4b3645d32a8b13088d782060.jpeg


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: FLUX | 逾越SD3、媲美Midjourney的顶级AI画图模型