新国产AI绘画模型来了:Lumina Image 2.0,提示词理解能力逾越Flux! ...

打印 上一主题 下一主题

主题 904|帖子 904|积分 2712

近来出来一个新的国产AI绘画模型:Lumina Image 2.0,由上海AI Lab推出,经我实测,其在保持文本和图像同等性等方面逾越了Flux,而且它的体积更小,还支持负向提示词、中日韩多语种提示词,未来大概有比力大的应用空间,特别分享给大家。
结果展示
==========
废话不多说,先看结果。






=============================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================
Lumina Image 2.0先容
===========================
Lumina-Image 2.0 是一个同一高效的图像天生模型。同一指的是它在文本和图像同等性方面做得特别好,也就是模型天生的图像更为服从提示词的形貌,实测逾越Flux.1 Dev;高效指的是模型的体积比力小但天生图像的质量比力高、天生图片的速率相对也比力快,SDXL根本模型的参数量是35亿,Flux.1 Dev的参数量是120亿,而Lumina-Image 2.0的参数量只有26亿,但是在广泛的天生使命中其图片质量还保持的不错。
============================================================================================================================================================================================================================
===
Lumina-Image 2.0 基于Diffusion Transfomer,这与Flux.1模型原理同等,它使用的VAE(图像编解码器)也与Flux.1 Dev和Flux.1 Schnell使用的雷同,不过它使用的文本编码器是Gemma,这提升了文本和图像的对齐结果。
===========================================================================================================================================
===
更为重要的一点,Lumina-Image 2.0 是开源的,基于Apache 2.0,现在Github上已经提供了微调代码。而现在AI绘画王者Flux.1有三个版本:最好的Pro只能通过API使用,结果略差的Dev可以免费但不能商用,结果较差的Schnell则可以免费商用,不过大家都不喜欢。虽然现在Lumina-Image 2.0的图片质量无法达到Flux.1的水平,但是经过社区的微调,大概可以在某些使命中逾越Flux.1 Dev,也可以期望其在未来的版本中可以或许做得更好。
=================================================================================================================================================================================================================================================
环境准备

Lumina-Image 2.0 可以独立运行:
独立步伐:https://github.com/Alpha-VLLM/Lumina-Image-2.0
原版模型:https://huggingface.co/Alpha-VLLM/Lumina-Image-2.0
Lumina-Image 2.0 也已经支持在ComfyUI中使用,我将以ComfyUI为例举行演示(工作流见文末):
模型下载:https://huggingface.co/Comfy-Org/Lumina_Image_2.0_Repackaged/tree/main/all_in_one
模型下载后放到根本模型目录即可,一样平常是 ComfyUI/models/checkpoints 目录。
下载不方便的同学可以发消息“Lumina”到我的公众号“萤火AI绘画”获取相干资源。
没有ComfyUI的同学建议先使用云环境来运行,无需复杂且容易出错的环境设置,待有应用代价了,再到本地折腾也不迟。我的云镜像:https://haoee.com/applicationMarket/applicationDetails?appId=27&IC=XLZLpI7Q
使用方法
==========
在ComfyUI中打开根本工作流:


如上图所示,这个工作流和我们常用的SD根本工作流没有太大区别,加载模型、填写提示词、设置采样参数等等都是差不多的。这里简单先容下这几个采样参数:
================================================================================================================================================================================================================================


  • 采样器/调度器:默以为 eluer/simple,也可以尝试 res_multistep/simple、 ipndm/ays+ 等的组合。
    =========================================================================
  • 采样步数:25-40,不同的天生使命大概必要举行调整,建议先使用25和40分别测试。
    =============================================
  • CFG:4-8,实测过高的CFG大概导致天生空缺图。
    =============================
  • 图片尺寸:根据官方在huggingface的演示步伐,高和宽建议范围:512- 2048。
    ================================================
另有一个必要额外注意的点:Lumina Image 2.0 支持编写负向提示词,这一点与Flux.1模型有很大不同,我们天生内容有了更强的控制能力。
系统提示词

Lumina-Image 2.0 支持一段系统提示词,我们可以在形貌图像的文本提示词前增加一段系统声明。
比如默认的:
You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.
翻译:你是一个助手,计划用来根据文本提示或用户提示天生具有良好图像-文本对齐度的高质量图像。
我们可以更改这段系统提示词,比如我们想天生一些小孩风格的画作,可以如许写系统提示词:
You are an inexperienced artist, producing primitively drawn but cute images, based on user prompt
翻译:你是一位缺乏履历的艺术家,根据用户提示创作出虽简单质朴但可爱的图像。
我们也可以不添加这段系统提示词,模型一样平常也能很好的完成推理使命,不过对于某些特定的约束,使用系统提示词大概会更好的强化这些约束的天生。
中文提示词

Lumina Image 2.0 模型中可以直接使用中文提示词,这一点对于我们国人来说特别友好!听说它还支持日语、韩文,大家可以试试看。

FP8

如果你以为 Lumina-Image 2.0 模型的体积还是有点大,本地显存不够用,我们另有招!

默认的 all in one 模型中包罗了扩散模型、VAE模型和文本编码器模型,此中扩散模型的参数精度是bf16,我们可以将它们分开,使用更低精度的数字,更低精度意味着我们使用的显存会更少一些,固然天生图片的质量大概会有一点损失。下边是我改造的一个fp8工作流。


实际运行结果对比:


根据网友反馈,推理期间的显存使用:FP8大约 6.2G,BF16大约 8.5G。
weight_dtype可以选择:fp8_e4m3fn、fp8_e4m3fn_fast、fp8_e5m2,此中fp8_e4m3fn_fast可以加快推理,在这个例子中,FP8使用大约7.5秒钟,BF16使用大约10.7秒钟,提速30%。
与Flux对比

这里将Lumina Image 2.0与现在最流行的Flux.1 Dev模型举行对比,虽然这对于Lumina有点不公平,Lumina Image 2.0的参数量比Flux.1 Dev要少许多,Flux.1 Dev 也不是一个完全免费的版本,但是从用户角度来说,模型能不能打才是最重要的。
=====================================================================================================================================================
因为Lumina Image 2.0刚发布不久,还没有各种ControlNet、IPAdapter、LoRA等,所以我们仅从文生图的方面举行对比。但是即便如此,我们也可以对模型的能力有比力清楚的了解。如果模型有几把刷子,未来大概可以撑起一片天,不枉我们花时间来研究它。
=========================================================================================================================================
这里采用的对比方法:两个模型,使用雷同的提示词,天生雷同大小的图片,针对肉眼清楚可见的方面,举行对比。因为能力、精力有限,使用的案例比力少,大概不够全面,但也可以或许说明题目,至少在详细案例的场景下是结果是很明确的。
=============================================================================================================
1、同等性

这里我们通过一张人脸特写来对比模型对提示词的服从性,也可以说是提示词和天生图片的同等性。
提示词:
a beautiful woman with her face half covered by golden paste, the other half is dark purple. on eye is yellow and the other is green. closeup, professional shot
翻译:一位美丽的女性,她的脸一半被金色的膏体覆盖,另一半是深紫色。她的一只眼睛是黄色的,另一只眼睛是绿色的。这是一张特写的专业照片。

注意看左右面部的涂抹、眼睛的颜色,Lumina-Image-2.0在笔墨和图像的对齐上表现显着更好。
在这个对比中,Lumina-Image-2.0更胜一筹!
2、风格多样性

如果你常常使用Flux.1模型,肯定会碰到默认天生动漫图片的题目,又大概你天生真实场景图片的时间,配景常常是含糊的,这时间我们大概必要通过提示词大概一些风格LoRA来影响图片的天生风格。Flux.1虽然可以或许天生各种各样风格的图片,但是它有时不能很好的区分它们,大概说它的风格控制有点难。


提示词:

Watercolour of very old George Clooney standing on a cliff, holding a sword and pointing it upwards, ships visible in the water below, purple lightning
翻译:一幅水彩画,画中黑白常年老的乔治·克鲁尼站在悬崖上,手持一把剑并向上指着。画面下方的水中可以看到船只,紫色的闪电划破天空。

注意看水彩的结果,Lumina-Image-2.0渲染的更好。别的对于人物的着装、持剑的方向,Lumina对提示词服从的也更好,这一点我们在同等性对比中提过了。
但是Lumina-Image-2.0的缺点也很显着,细节粗糙,特别是人脸惨不忍睹,这和SD1.5、SDXL等模型绘制较小人脸时容易畸形,如出一辙。不过我们可以通过局部细化的方式来缓解这个题目(工作流见文末)。

Flux.1 在真实场景和各种常见风格方面大概都经过了精细的蒸馏微调,相比之下,Lumina 对于任何风格的调整都不是那么过细,美学上都要差一些,相对原始,没有那么多各种正确,这大概也是个上风,对于大多数非传统风格而言,Lumina会比Flux更胜一筹,用户还可以选择对不同的场景举行微调。
3、画手

对于AI画手容易出现畸形的题目,Flux.1模型已经在很大水平上办理了这个题目,我也曾经分享过多篇使用Flux模型来修脸修手的工作流,有兴趣的同学可以发消息“工作流”到公众号“萤火AI绘画”来获取它们。

在画手的题目上,Lumina表现如何呢?
提示词:
A cheerful Asian girl wearing a casual white dress stands in a sunlit café, raising her right hand to wave at the camera with a warm smile. Her fingers are perfectly shaped, and the natural lighting highlights her flowing hair. The background features a blurred coffee counter with steaming cups, creating a cozy and dynamic atmosphere, ultra-realistic photography, 8K resolution, depth of field.
翻译:一个活泼的亚洲女孩穿着一件休闲的白色连衣裙,站在阳光照耀的咖啡馆里,举起右手向镜头挥手,脸上洋溢着温暖的微笑。她的手指线条优美,天然光线使她的秀发更加动人。配景是含糊的咖啡柜台和冒着热气的杯子,营造出温馨而充满活力的氛围。超逼真的拍照,8K分辨率,景深结果。

细致看,Lumina Image 2.0天生手部多少还是有点变形了,相比Flux.1,Lumina出现坏手的概率还是很高的,但是相比之前的SD1.5、SDXL模型,Lumina Image 2.0还是逾越了许多的,坏的不是很严重。
4、写字

再看一下模型的笔墨天生能力。

提示词:

a young curly haired caucasian Belarusian woman sipping from a large glass of beer. She wears a blue sweatshirt with the name “I’m with Shmoopie” on it in orange lettering. On top of her head sits a relaxed, content-looking calico cat with its eyes closed. The background is a simple solid teal, giving the scene a minimalist yet cute and cozy feel. Tiny stars float above the cat, adding a whimsical touch to the peaceful and laid-back atmosphere.
翻译:一位年轻的白人卷发的白俄罗斯女性正品尝着一大杯啤酒。她穿着一件蓝色连帽衫,上面用橙色字母写着“I’m with Shmoopie”。她的头上坐着一只放松的、心满足足的加州猫,眼睛紧闭。配景是简单的深蓝色,给这个场景带来极简而又可爱舒适的感觉。星星点点漂浮在猫的上方,为宁静放松的氛围增添了一丝奇思妙想。

可以看到 Lumina-Image 2.0 可以天生笔墨,但是天生的笔墨错误还是有点多,Flux.1 Dev 基本没有错误。
再看一个简单的:
A chubby brown bear wearing a red scarf, holding a wooden sign engraved with ‘Hello’ in glowing calligraphy, standing on a bustling city street with neon shop signs and floating cherry blossom petals, cinematic lighting, 3D cartoon style with soft pastel colors, trending on ArtStation, ultra-detailed textures on fur and wood, isometric perspective, morning golden hour ambiance

即使简单的笔墨,Lumina Image 2.0 也很容易出现错误。
不过以 2.6 B 的体量,Lumina Image 2.0 能做到如今如许,也已经很不错了。
5、动漫

可爱的动漫女孩,有着巨大的毛茸茸的耳廓狐耳朵和一条大大的蓬松尾巴,金色缭乱的长发,蓝色的眼睛,穿着女仆装,搭配一条长长的黑色金叶图案连衣裙和白色围裙,嘴巴伸开着,正在将一个装饰精美的黑森林蛋糕(上面插着蜡烛)放在一座由烛光照亮的古老维多利亚式豪宅的餐桌上。豁亮的窗户外面是雾蒙蒙的森林,房间里随处都是昂贵的物品,墙上挂着画作。

cute anime girl with massive fluffy fennec ears and a big fluffy tail blonde messy long hair blue eyes wearing a maid outfit with a long black gold leaf pattern dress and a white apron mouth open placing a fancy black forest cake with candles on top of a dinner table of an old dark Victorian mansion lit by candlelight with a bright window to the foggy forest and very expensive stuff everywhere there are paintings on the walls

Lumina-Image-2.0在光影处理上表现更佳,注意烛光和窗户透进来的光线,它们营造出更加真实的氛围,但是细节处理有畸形,注意烛台底座和墙上的画像。
而Flux.1 Dev 在色彩美丽度和配景精致度上有上风,配景事物的绘制结果也比力好,但光影处理稍显不敷。
6、更多对比

这里我又做了一些对比,大家可以参考下。


(1)瓶子里的宇宙

提示词:
a bottle with a beautiful rainbow galaxy inside it on top of a wooden table in the middle of a modern kitchen beside a plate of vegetables and mushrooms and a wine glasse that contains a planet earth with a plate with a half eaten apple pie on it

(2)趴在草地上的女人
提示词:
woman laying in a grass field, beagle lying next to her, smile on her face, yellow sundress, sunglasses in hand, professional photograph

总结
========
Lumina-Image 2.0的上风:
=======================
提示词与图像高度对齐、支持中文提示词、多样性支持水平高、开源可商用、模型体积小、推理速率快。
Lumina-Image 2.0的缺点:
图片精致水平不够、美学水平不敷、社区支持不敷。
总体来说,Lumina Image 2.0在天生图像的质量和多样性方面表现精彩,在理解图像内容和结构方面比力强大,在处理颜色、形状和纹理等细节方面也做得非常好,能很好地理解和形貌图像的特性。不过它天生图片的质量还达不到Flux.1的水平,重要体如今:美学水平不敷、天生图片精致水平不够,大概可以通过微调练习举行优化,大概在未来的版本中得到改善,期待官方发布一些controlnet和ipadapter的工具。
资源下载 :

写在末了

常用工作流已经给各位小同伴打包好了,可以按需自取,无偿分享。



这份完备版的AI绘画全套学习资料已经上传CSDN,朋侪们如果必要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】

AIGC技能的未来发展前景广阔,随着人工智能技能的不停发展,AIGC技能也将不停提高。未来,AIGC技能将在游戏和计算范畴得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更机动的特性。同时,AIGC技能也将与人工智能技能紧密结合,在更多的范畴得到广泛应用,对步伐员来说影响至关重要。未来,AIGC技能将继续得到提高,同时也将与人工智能技能紧密结合,在更多的范畴得到广泛应用。


一、AIGC全部方向的学习路线
AIGC全部方向的技能点做的整理,形成各个范畴的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,包管自己学得较为全面。


二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!

三、最新AIGC学习笔记
当我学到肯定根本,有自己的理解能力的时间,会去阅读一些先辈整理的书籍大概手写的笔记资料,这些笔记详细记载了他们对一些技能点的理解,这些理解是比力独到,可以学到不一样的思绪。


四、AIGC视频教程合集
观看全面零根本学习视频,看视频学习是最快捷也是最有结果的方式,跟着视频中老师的思绪,从根本到深入,还是很容易入门的。

五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才气将自己的所学运用到实际当中去,这时间可以搞点实战案例来学习。

如有侵权,请接洽删除

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

美食家大橙子

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表