另有一个必要额外注意的点:Lumina Image 2.0 支持编写负向提示词,这一点与Flux.1模型有很大不同,我们天生内容有了更强的控制能力。
系统提示词 Lumina-Image 2.0 支持一段系统提示词,我们可以在形貌图像的文本提示词前增加一段系统声明。
比如默认的:
You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.
翻译:你是一个助手,计划用来根据文本提示或用户提示天生具有良好图像-文本对齐度的高质量图像。
我们可以更改这段系统提示词,比如我们想天生一些小孩风格的画作,可以如许写系统提示词:
You are an inexperienced artist, producing primitively drawn but cute images, based on user prompt
翻译:你是一位缺乏履历的艺术家,根据用户提示创作出虽简单质朴但可爱的图像。
我们也可以不添加这段系统提示词,模型一样平常也能很好的完成推理使命,不过对于某些特定的约束,使用系统提示词大概会更好的强化这些约束的天生。
中文提示词 Lumina Image 2.0 模型中可以直接使用中文提示词,这一点对于我们国人来说特别友好!听说它还支持日语、韩文,大家可以试试看。
FP8
如果你以为 Lumina-Image 2.0 模型的体积还是有点大,本地显存不够用,我们另有招! 默认的 all in one 模型中包罗了扩散模型、VAE模型和文本编码器模型,此中扩散模型的参数精度是bf16,我们可以将它们分开,使用更低精度的数字,更低精度意味着我们使用的显存会更少一些,固然天生图片的质量大概会有一点损失。下边是我改造的一个fp8工作流。
这里将Lumina Image 2.0与现在最流行的Flux.1 Dev模型举行对比,虽然这对于Lumina有点不公平,Lumina Image 2.0的参数量比Flux.1 Dev要少许多,Flux.1 Dev 也不是一个完全免费的版本,但是从用户角度来说,模型能不能打才是最重要的。
=====================================================================================================================================================
因为Lumina Image 2.0刚发布不久,还没有各种ControlNet、IPAdapter、LoRA等,所以我们仅从文生图的方面举行对比。但是即便如此,我们也可以对模型的能力有比力清楚的了解。如果模型有几把刷子,未来大概可以撑起一片天,不枉我们花时间来研究它。
=========================================================================================================================================
这里采用的对比方法:两个模型,使用雷同的提示词,天生雷同大小的图片,针对肉眼清楚可见的方面,举行对比。因为能力、精力有限,使用的案例比力少,大概不够全面,但也可以或许说明题目,至少在详细案例的场景下是结果是很明确的。
=============================================================================================================
1、同等性 这里我们通过一张人脸特写来对比模型对提示词的服从性,也可以说是提示词和天生图片的同等性。
提示词:
a beautiful woman with her face half covered by golden paste, the other half is dark purple. on eye is yellow and the other is green. closeup, professional shot
翻译:一位美丽的女性,她的脸一半被金色的膏体覆盖,另一半是深紫色。她的一只眼睛是黄色的,另一只眼睛是绿色的。这是一张特写的专业照片。
如果你常常使用Flux.1模型,肯定会碰到默认天生动漫图片的题目,又大概你天生真实场景图片的时间,配景常常是含糊的,这时间我们大概必要通过提示词大概一些风格LoRA来影响图片的天生风格。Flux.1虽然可以或许天生各种各样风格的图片,但是它有时不能很好的区分它们,大概说它的风格控制有点难。 提示词: Watercolour of very old George Clooney standing on a cliff, holding a sword and pointing it upwards, ships visible in the water below, purple lightning
翻译:一幅水彩画,画中黑白常年老的乔治·克鲁尼站在悬崖上,手持一把剑并向上指着。画面下方的水中可以看到船只,紫色的闪电划破天空。
Flux.1 在真实场景和各种常见风格方面大概都经过了精细的蒸馏微调,相比之下,Lumina 对于任何风格的调整都不是那么过细,美学上都要差一些,相对原始,没有那么多各种正确,这大概也是个上风,对于大多数非传统风格而言,Lumina会比Flux更胜一筹,用户还可以选择对不同的场景举行微调。
3、画手 对于AI画手容易出现畸形的题目,Flux.1模型已经在很大水平上办理了这个题目,我也曾经分享过多篇使用Flux模型来修脸修手的工作流,有兴趣的同学可以发消息“工作流”到公众号“萤火AI绘画”来获取它们。 在画手的题目上,Lumina表现如何呢?
提示词:
A cheerful Asian girl wearing a casual white dress stands in a sunlit café, raising her right hand to wave at the camera with a warm smile. Her fingers are perfectly shaped, and the natural lighting highlights her flowing hair. The background features a blurred coffee counter with steaming cups, creating a cozy and dynamic atmosphere, ultra-realistic photography, 8K resolution, depth of field.
翻译:一个活泼的亚洲女孩穿着一件休闲的白色连衣裙,站在阳光照耀的咖啡馆里,举起右手向镜头挥手,脸上洋溢着温暖的微笑。她的手指线条优美,天然光线使她的秀发更加动人。配景是含糊的咖啡柜台和冒着热气的杯子,营造出温馨而充满活力的氛围。超逼真的拍照,8K分辨率,景深结果。
细致看,Lumina Image 2.0天生手部多少还是有点变形了,相比Flux.1,Lumina出现坏手的概率还是很高的,但是相比之前的SD1.5、SDXL模型,Lumina Image 2.0还是逾越了许多的,坏的不是很严重。
4、写字 再看一下模型的笔墨天生能力。 提示词: a young curly haired caucasian Belarusian woman sipping from a large glass of beer. She wears a blue sweatshirt with the name “I’m with Shmoopie” on it in orange lettering. On top of her head sits a relaxed, content-looking calico cat with its eyes closed. The background is a simple solid teal, giving the scene a minimalist yet cute and cozy feel. Tiny stars float above the cat, adding a whimsical touch to the peaceful and laid-back atmosphere.
翻译:一位年轻的白人卷发的白俄罗斯女性正品尝着一大杯啤酒。她穿着一件蓝色连帽衫,上面用橙色字母写着“I’m with Shmoopie”。她的头上坐着一只放松的、心满足足的加州猫,眼睛紧闭。配景是简单的深蓝色,给这个场景带来极简而又可爱舒适的感觉。星星点点漂浮在猫的上方,为宁静放松的氛围增添了一丝奇思妙想。
可以看到 Lumina-Image 2.0 可以天生笔墨,但是天生的笔墨错误还是有点多,Flux.1 Dev 基本没有错误。
再看一个简单的:
A chubby brown bear wearing a red scarf, holding a wooden sign engraved with ‘Hello’ in glowing calligraphy, standing on a bustling city street with neon shop signs and floating cherry blossom petals, cinematic lighting, 3D cartoon style with soft pastel colors, trending on ArtStation, ultra-detailed textures on fur and wood, isometric perspective, morning golden hour ambiance
可爱的动漫女孩,有着巨大的毛茸茸的耳廓狐耳朵和一条大大的蓬松尾巴,金色缭乱的长发,蓝色的眼睛,穿着女仆装,搭配一条长长的黑色金叶图案连衣裙和白色围裙,嘴巴伸开着,正在将一个装饰精美的黑森林蛋糕(上面插着蜡烛)放在一座由烛光照亮的古老维多利亚式豪宅的餐桌上。豁亮的窗户外面是雾蒙蒙的森林,房间里随处都是昂贵的物品,墙上挂着画作。 cute anime girl with massive fluffy fennec ears and a big fluffy tail blonde messy long hair blue eyes wearing a maid outfit with a long black gold leaf pattern dress and a white apron mouth open placing a fancy black forest cake with candles on top of a dinner table of an old dark Victorian mansion lit by candlelight with a bright window to the foggy forest and very expensive stuff everywhere there are paintings on the walls
Lumina-Image-2.0在光影处理上表现更佳,注意烛光和窗户透进来的光线,它们营造出更加真实的氛围,但是细节处理有畸形,注意烛台底座和墙上的画像。
而Flux.1 Dev 在色彩美丽度和配景精致度上有上风,配景事物的绘制结果也比力好,但光影处理稍显不敷。
6、更多对比
这里我又做了一些对比,大家可以参考下。 (1)瓶子里的宇宙 提示词:
a bottle with a beautiful rainbow galaxy inside it on top of a wooden table in the middle of a modern kitchen beside a plate of vegetables and mushrooms and a wine glasse that contains a planet earth with a plate with a half eaten apple pie on it
(2)趴在草地上的女人
提示词:
woman laying in a grass field, beagle lying next to her, smile on her face, yellow sundress, sunglasses in hand, professional photograph