IT评测·应用市场-qidao123.com技术社区

标题: 个性化图像天生新突破 — 新型“文生图”扩散模型MoA架构解析 [打印本页]

作者: 耶耶耶耶耶    时间: 2024-7-13 16:16
标题: 个性化图像天生新突破 — 新型“文生图”扩散模型MoA架构解析
在数字化期间,个性化内容的创造已成为趋势。最近,一项名为MoA(Mixture-of-Attention)的新技术在个性化图像天生范畴取得了显著进展。这项由Snap Inc.团队开辟的架构,不仅提升了图像天生的个性化水平,还保持了原始模型的强大功能。本文将深入探究MoA的方法论、实验成果及其应用前景。

MoA架构如何实现个性化图像天生


在个性化图像天生范畴,MoA(Mixture-of-Attention)架构带来了一种创新的方法,它通过经心计划的注意力机制,实现了个性化内容的天生,同时保留了原始模型的天生能力。以下是MoA方法的详细解析:
Mixture-of-Attention (MoA) 层

MoA层是MoA架构的焦点,它扩展了传统的注意力机制,通过引入多个注意力块(即“专家”),并由一个路由网络软性地联合这些专家的输出。MoA层包罗两个分支:
此外,MoA层引入了一个路由网络,负责在两个分支之间分配像素,优化个性化内容和通用内容的肴杂。
注意力层的工作原理

在MoA层中,每个注意力层都有自己的投影参数。注意力层起首计算注意力图,然后将其应用于值(Value)向量。在自注意力层中,条件(Condition)是隐藏状态本身;在MoA的交叉注意力层中,条件是文本条件,这有助于模型更好地理解文本提示。
多模态提示

MoA支持将主体图像作为视觉标记注入到文本提示中。通过使用预练习的图像编码器提取图像特征,并将这些特征与文本嵌入拼接,形成多模态嵌入。这些嵌入进一步受到扩散时间步和U-Net层条件的影响,以增强身份保持。

练习计谋

MoA的练习包括三个重要部分:
练习过程

MoA层取代了预练习扩散U-Net中的所有注意力层。在推理过程中,MoA块接收输入图像特征,并将它们传递给路由网络,路由网络决定如安在个性化注意力输出和原始注意力块输出之间均衡权重。

创新点

MoA的重要创新在于其能够将个性化主体与天生的上下文解耦,同时保持对原始文本提示的响应性。这种计划不仅提高了个性化图像天生的质量,还为多种应用场景提供了可能性,如主体互换、风格迁徙和真实图像编辑。
通过这些方法,MoA架构能够在天生个性化图像的同时,保持与原始模型一样的多样性和上下文互动,实现了个性化天生范畴的一大突破。
MoA架构的定量与定性评估

MoA架构的实验部分旨在验证其在个性化图像天生任务中的有用性。实验通过一系列定量和定性评估来展示MoA如何实现主题与上下文的解耦控制,处理处罚遮挡,以及天生多主题图像的能力。
实验设置


定性评估


定量评估


实验结果

MoA在身份保持和提示一致性方面与FastComposer等基线方法表现相当。然而,MoA天生的图像在结构上展现了更多的变革性,并且在主体与上下文的互动方面表现得更好。

实验结果表明,MoA架构能够在个性化图像天生任务中实现主体与上下文的有用解耦,同时保持图像的高质量和一致性。此外,MoA的简朴性和对现有技术的兼容性为未来的应用开辟提供了广阔的空间。
MoA架构的应用

MoA的计划理念使其与现有的图像天生和编辑技术(如ControlNet和DDIM Inversion)自然兼容。这为个性化图像天生的应用提供了广阔的空间,包括但不限于:
MoA能够与ControlNet联合使用,实现对天生图像中主体姿势的控制。例如,给定文本提示“在咖啡馆喝咖啡”,用户可以通过ControlNet调整图像中人物的姿势,无论是站立、坐着还是行走,MoA都能保持人物与上下文的一致性。

文本提示:“在埃菲尔铁塔前喝咖啡的人”
应用MoA和ControlNet后,可以天生一系列图像,展示同一人物在不同姿势下的场景。
MoA架构在个性化图像天生范畴的强大潜力。无论是在艺术创作、媒体娱乐、教诲还是广告计划等范畴,MoA都能提供创新的解决方案,推动个性化内容创作的边界。

论文链接:https://arxiv.org/abs/2404.11565
项目地点:https://snap-research.github.io/mixture-of-attention/

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4