2024年12月18日,Google 正式发布了旗下最新的文生图模子Imagen3和最新的视频模子Veo2,普遍以为这是Google在这两个范畴向Midjourney和Sora的正式挑衅。
与此前Google新的AI产品发布差别,这次一经发布就受到大家的广泛关注,而且大家不约而同地给这两款产品都给出了很高的评价。
伴随着Imagen 3的重磅更新,相反,过去的一年,AI绘图范畴一直的老大哥Midjourney的更新仿佛陷入了停滞
纵观这一年,Midjourney只进行了一次大的模子更新:2024年7月31日,Version 6.1版本,而这距今已经过去了5个月
现在Veo 2还必要提交申请列队,Imagen 3已经开放使用,今天和大家聊聊Imagen 3,以及我本身的测评,和大家分享。
AI绘图范畴可以覆盖的范围非常的广泛,我筛选了个人以为比力常用的几个维度测试生成效果:
人物生成
人物是全部AI绘图的工具必修课,这里我设想了三个差别的场景分别测试效果
场景1:黑白高对比度肖像,一位学者坐在古老图书馆的木质桌旁,四周堆满了书籍,柔和的光线洒在他的面容上,锐利的阴影和高光突出了他深邃的眼神和智者的气质,使用徕卡M10相机与50mm镜头拍摄,经典胶片颗粒效果增添了时代感。
- Prompt: High-contrast black and white portrait of ascholarsittingatanancientwoodendeskinalibrarysurroundedbystacksofbooks, softlightfallingonhisface, sharpshadowsandhighlightsaccentuatinghisdeepgazeandwisedemeanor, capturedwithaLeicaM10anda 50mmlens, classicfilmgraineffectforatimelessfeel.
复制代码 Imagen 3
Midjourney V6.1
从第一组人物形象测试来看,实现效果人物效果非常靠近,但从背景细节来看,Imagen 3的生成的图片展示的细节信息更加完整,比如木制书桌这个信息,Imagen 3很好的呈现了出来,而Midjourney被堆满了书籍而掩盖掉了。
下面分别是多轮生成的图像,上方是Imagen 3,下方是Midjourney
感爱好的小搭档,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
从整体生成效果来看,Imagen 3的一致性更高,不管履历频频的重复生成,人物,形态及场景结构的一致性很高,而反观Midjourney的几组照片,人物,人物的形态特性等都更加丰富多变了。
场景2:一位优雅的芭蕾舞者在舞台上表演,空中旋转姿态完美,舞台灯光投射出戏剧性的阴影,使用 50mm f/1.8 镜头拍摄,快速快门定格舞姿,同时保持背景虚化,营造出梦幻般的效果。
- Prompt: A graceful ballet dancer mid-performance, poised in the air with a perfect pirouette, the stage lights casting dramatic shadows on the floor, captured with a 50mm f/1.8 lens, fast shutter speed to freeze the motion while maintaining soft background blur for a dreamlike effect.
复制代码 Imagen 3
Midjourney V6.1
Imagen 3生成的这张图片直接惊艳到了我,明显可以看到Imagen 3整体对于Prompt依照更加完美,不但非常优雅地展示了一个芭蕾舞者精致的姿态,还与舞台的灯光投影效果实现非常完美地交互
而Midjourney仿佛被末了一句梦幻般的舞台效果干扰到了,整体的几组照片舞台效果都很差,缺少一些美感,而Midjourney在形容词这一块很容易受到干扰,后面我们还会看到类似效果
上下分别是Imagen 3和Midjourney多轮生成效果
在单个人物的基础上,测试多个人物的动作形态及形象的依照效果
场景3:在一家温馨的咖啡馆里,一位男士站在柜台旁,手中拿着一杯咖啡,专注地看着坐在桌旁的女孩。女孩坐在桌旁,双臂交织在桌上,轻微歪着头,用心凝听。她的心情开放,眼神专注,而他的姿势略显紧张,似乎正在进行一场深刻的对话。咖啡馆内温暖的氛围和头顶柔和的环境光增添了亲密感和联系感。使用 35mm f/1.4 镜头拍摄,背景略微虚化,焦点会合在他们的面容和肢体语言上,捕捉这一刻的深情交流。
- Prompt: In a cozy coffee shop, a man stands leaning against the counter, a coffee cup in hand, looking intently at the woman sitting at a table nearby. The woman, sitting with her arms crossed on the table, tilts her head slightly, listening intently. Her expression is open, her eyes engaged, while his stance, slightly tense, suggests a deep, meaningful conversation. The intimate environment of the café, with soft ambient light from overhead, adds a sense of warmth and connection. Shot with a 35mm f/1.4 lens, the background is subtly blurred, bringing the focus to their faces and body language, capturing a moment of connection.
复制代码 Imagen 3
Midjourney V6.1
同一个场景,两个人物差别的动作形态,在细节的理解上,Imagen 3再胜一筹,显然Midjourney的男主忘记了手中的咖啡,生成的三组照片中,只有一张手里拿了咖啡,从两个人的动作心情来看,Imagen 3的效果也更天然一些
上下分别是Imagen 3和Midjourney多轮生成效果
从以上几组人物的效果来看, Imagen 3的生成效果完全领先于Midjourney,尤其在细节方面,Imagen 3表现更为惊艳
动物生成
- prompt:Cute two cats, big eyes, alternating black and white fur, silly demeanor, playing together in a spacious and tidy house
复制代码 Imagen 3
Midjourney V6.1
很明显可以看到,Imagen 3以写实的照片为主,而Midjourney的创造性更强一些
同时,这里也遇到了和芭蕾舞者生成的时候同样的题目,Midjourney对于Cute这类形容词似乎更加敏感,在生成图片的时候也会更多的将形象聚焦于Cute这类形容词
上下分别是Imagen 3和Midjourney多轮生成效果
而在测试中,发现一个故意思的现象,Imagen 3偶尔会不能理解Two cats,这让我比力意外
比如Two cute cats和Cute two cats,Midjourney生成的都能严格服从,但Imagen 3偶尔会混入第三只猫,比如如许
除了小猫,我们再生成一只狐狸试试效果
- Night. Close-up of a huge white fox standing and turning , with the magnificent golden palace of ancient China behind it and smoke all around . Soft blue-green lighting.
复制代码 Imagen 3
Midjourney V6.1
Iamgen 3更倾向于真实效果,而Midjourney则更多融入了一些风格化的元素,但从背后修建的生成效果来看,Imagen 3更为的精细,如许的图片少了一些AI的味道,看起来更真实一些。
静物效果
- Prompt:red car, high resolution, high quality
复制代码 Imagen 3
Midjourney V6.1
产品设计
- Product photography of a violet-colored shampoo, with the brand name "VIOLET" displayed in gold text on an elegant purple bottle. The product is surrounded by white cream and splash designs , set against a dark, blackish-purple background with soft lighting . The image is highly detailed , hyper-realistic , and in a cinematic, minimalistic photography style with high resolution .
复制代码 Imagen 3
Midjourney V6.1
室内设计
- Prompt: Interior Design, a perspective of a study, large windows with natural light, Light colors, plants, modern furniture, modernist, modern interior design
复制代码 Imagen 3
Midjourney V6.1
风景照片效果
- Prompt: A hyper realistic photo of The Grand Canyon at sunrise, Canon RF 16mm f:2.8 STM Lens
复制代码 Imagen 3
Midjourney V6.1
3D风格设计
- Prompt: architectural cross section of a geometirc architectural model in the cube display, 3D, with deep layered, cubic structures. The design features intricate lighting exploration, caverns, and pathways. Viwed from a frontal, parallel sectional view
复制代码 Imagen 3
Midjourney V6.1
- Prompt: 3D toy, ip, Cyberpunk style, simple background,Chinese style clothes, best quality, c4d, mixer, 3D model, toy, whole body, watching the audience, super details, clean background, ip by pop mart, physical blind box, vivid color, street style, high resolution, a lot of details, Pixar, candy color, fashion trend
复制代码 Imagen 3
Midjourney V6.1
赛博朋克风格
- A futuristic cyberpunk city at night, with neon-lit streets reflecting off wet pavement, towering skyscrapers adorned with holographic advertisements, and a sleek red racing car hovering slightly above the ground, glowing blue vapor emitting from its exhaust. People in glowing exoskeletons walk along the streets, dynamic graffiti on walls, and drones patrol the hazy sky. The atmosphere is vibrant, with cool blue and purple tones mixed with warm orange and pink neon lights.
复制代码 Imagen 3
Midjourney V6.1
中国水墨画风格
- an Chinese ink painting of A landscape , black and white documentary style , japanese minimalism , Simple , large areas of white , detail shot , high quality
复制代码 Imagen 3
Midjourney V6.1
漫画风格
- Prompt: Iron Man, red background, comic book art
复制代码 Imagen 3
Midjourney V6.1
一些更为抽象的设计
- A close-up, macro photography stock photo of a strawberry intricately sculpted into the shape of a hummingbird in mid-flight, its wings a blur as it sips nectar from a vibrant, tubular flower. The backdrop features a lush, colorful garden with a soft, bokeh effect, creating a dreamlike atmosphere. The image is exceptionally detailed and captured with a shallow depth of field, ensuring a razor-sharp focus on the strawberry-hummingbird and gentle fading of the background. The high resolution, professional photographers style, and soft lighting illuminate the scene in a very detailed manner, professional color grading amplifies the vibrant colors and creates an image with exceptional clarity. The depth of field makes the hummingbird and flower stand out starkly against the bokeh background.
复制代码 这个Prompt来自Google官方,描述一个草莓镌刻而成的蜂鸟的外形,摆荡着翅膀正在汲取花蜜的场景
Imagen 3
Midjourney V6.1
文字生成效果
- a new year greeting card showing beach shoreline filled with festive lights from afar offshore at night and the sky full of fireworks. Add the greeting "Happy New Year 2025".
复制代码 Imagen 3
Midjourney V6.1
| 总结
- Prompt依照:得益于Gemini 2.0的强大的语言理解能力,Imagen 3非常严格的依照Prompt生成图像,包含各部分完整的细节在语义依照和画面的整体控制方面做的非常不错。
- 画面细节:Imagen 3对细节各方面的信息相对更加完整,这种也让图片的AI的味道少了很多。
- 风格的多样性:Imagen 3对于Prompt严格的依照带来的代价也很明显,风格缺少多样性,纵然多次的抽卡,最终画面的主体,特性,画面结构结构都不会出现特别显著的差异。
- 文字控制:从基础测试来看,二者在文字方面的效果并没有显著的差距,Midjourney的艺术风格相对更多一些。
Imagen 3更适合生成一些真实性的图像,尽大概完善图像细节,减少生成图片的AI味道,而Midjourney更适合风格多样性的设计,找寻更多的灵感和思路。
相较于Midjourney,Imagen 3现在整体的交互及网页版的功能都还非常的大略,交互的细节还有很大的提升空间,但Imagen 3一个更大的上风:免费,没有数量限制,全部效户每天都可以无穷生成图片。
2024年,AI绘图范畴有一些寂静,Imagen 3的出现,给了我们一些惊喜,这也是对Midjourney的挑衅。
2025,新的一年,等待更多AI产品和功能的诞生!
Imagen 3体验
地址:
已经看到这里了,如果这篇文章对你有帮助,欢迎点赞,分享,在看! |