个性化图像天生新突破 — 新型“文生图”扩散模型MoA架构解析 ...

打印 上一主题 下一主题

主题 1655|帖子 1655|积分 4965

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在数字化期间,个性化内容的创造已成为趋势。最近,一项名为MoA(Mixture-of-Attention)的新技术在个性化图像天生范畴取得了显著进展。这项由Snap Inc.团队开辟的架构,不仅提升了图像天生的个性化水平,还保持了原始模型的强大功能。本文将深入探究MoA的方法论、实验成果及其应用前景。

MoA架构如何实现个性化图像天生


在个性化图像天生范畴,MoA(Mixture-of-Attention)架构带来了一种创新的方法,它通过经心计划的注意力机制,实现了个性化内容的天生,同时保留了原始模型的天生能力。以下是MoA方法的详细解析:
Mixture-of-Attention (MoA) 层

MoA层是MoA架构的焦点,它扩展了传统的注意力机制,通过引入多个注意力块(即“专家”),并由一个路由网络软性地联合这些专家的输出。MoA层包罗两个分支:

  • 固定“先验”分支:复制自原始网络,保持不变,以保留原始模型的先验知识。
  • 可练习“个性化”分支:针对图像输入举行微调,学习嵌入由输入图像表现的主体。
此外,MoA层引入了一个路由网络,负责在两个分支之间分配像素,优化个性化内容和通用内容的肴杂。
注意力层的工作原理

在MoA层中,每个注意力层都有自己的投影参数。注意力层起首计算注意力图,然后将其应用于值(Value)向量。在自注意力层中,条件(Condition)是隐藏状态本身;在MoA的交叉注意力层中,条件是文本条件,这有助于模型更好地理解文本提示。
多模态提示

MoA支持将主体图像作为视觉标记注入到文本提示中。通过使用预练习的图像编码器提取图像特征,并将这些特征与文本嵌入拼接,形成多模态嵌入。这些嵌入进一步受到扩散时间步和U-Net层条件的影响,以增强身份保持。

练习计谋

MoA的练习包括三个重要部分:

  • 掩蔽重修丧失:优化前景(主体)的重修,忽略背景。
  • 路由丧失:练习路由网络,使得背景像素更多地使用“先验”分支,而前景像素则由“个性化”分支天生。
  • 对象丧失:使用均衡的L1丧失,进一步优化个性化分支的性能。
练习过程

MoA层取代了预练习扩散U-Net中的所有注意力层。在推理过程中,MoA块接收输入图像特征,并将它们传递给路由网络,路由网络决定如安在个性化注意力输出和原始注意力块输出之间均衡权重。

创新点

MoA的重要创新在于其能够将个性化主体与天生的上下文解耦,同时保持对原始文本提示的响应性。这种计划不仅提高了个性化图像天生的质量,还为多种应用场景提供了可能性,如主体互换、风格迁徙和真实图像编辑。
通过这些方法,MoA架构能够在天生个性化图像的同时,保持与原始模型一样的多样性和上下文互动,实现了个性化天生范畴的一大突破。
MoA架构的定量与定性评估

MoA架构的实验部分旨在验证其在个性化图像天生任务中的有用性。实验通过一系列定量和定性评估来展示MoA如何实现主题与上下文的解耦控制,处理处罚遮挡,以及天生多主题图像的能力。
实验设置



  • 数据集:使用FFHQ数据集举行练习,该数据集包罗由BLIP-2天生的标题和由MaskedFormer天生的分割掩码。定量评估使用了FFHQ测试集和CelebA数据集中的15个主题。
  • 模型细节:预练习的文本到图像(T2I)模型使用了StableDiffusion v1.5。图像编码器使用了OpenAI的clip-vit-large-patch14视觉模型。
  • 练习配置:在4个NVIDIA H100 GPU上举行练习,使用恒定的学习率1e-5和批量巨细128。
定性评估



  • 解耦的主体-上下文控制:MoA能够在单次前向传递中实现主体和上下文的解耦,纵然在随机种子保持不变的情况下,通过改变输入主体,也能够实现对前景的局部化更改,而不影响背景。
  • 图像质量、变革性和一致性:MoA的“在提示空间中的局部注入”特性令人惊讶地处理处罚了遮挡问题。纵然在主体被遮挡的情况下,面部细节和身段特征仍然得到了保留。
  • 多主题组合:MoA能够天生具有密切互动的多主题图像,纵然在跳舞等主体相互遮挡的情况下,天生的图像仍然保持全局一致性。
定量评估



  • 评估指标:重要使用了身份保持(Identity Preservation, IP)和提示一致性(Prompt Consistency, PC)两个定量指标。
  • 身份保持:使用FaceNet计算天生图像和输入图像之间的成对身份相似度。
  • 提示一致性:根据之前的研究,使用CLIP-L/14计算图像-文本相似度的均匀值。
实验结果

MoA在身份保持和提示一致性方面与FastComposer等基线方法表现相当。然而,MoA天生的图像在结构上展现了更多的变革性,并且在主体与上下文的互动方面表现得更好。

实验结果表明,MoA架构能够在个性化图像天生任务中实现主体与上下文的有用解耦,同时保持图像的高质量和一致性。此外,MoA的简朴性和对现有技术的兼容性为未来的应用开辟提供了广阔的空间。
MoA架构的应用

MoA的计划理念使其与现有的图像天生和编辑技术(如ControlNet和DDIM Inversion)自然兼容。这为个性化图像天生的应用提供了广阔的空间,包括但不限于:

  • 可控个性化天生 — 使用ControlNet举行姿势控制,MoA可以在保持上下文不变的同时,调整图像中主体的姿态。
  • 主体变形(Subject Morphing) — 通过在MoA中对图像特征举行插值,可以在不同主体间实现平滑的过渡,创造出新的虚拟脚色。
  • 真实图像编辑 — 联合DDIM Inversion技术,MoA可以用于真实照片的编辑,如主体更换,提供了一种新的图像编辑方法。
MoA能够与ControlNet联合使用,实现对天生图像中主体姿势的控制。例如,给定文本提示“在咖啡馆喝咖啡”,用户可以通过ControlNet调整图像中人物的姿势,无论是站立、坐着还是行走,MoA都能保持人物与上下文的一致性。

文本提示:“在埃菲尔铁塔前喝咖啡的人”
应用MoA和ControlNet后,可以天生一系列图像,展示同一人物在不同姿势下的场景。
MoA架构在个性化图像天生范畴的强大潜力。无论是在艺术创作、媒体娱乐、教诲还是广告计划等范畴,MoA都能提供创新的解决方案,推动个性化内容创作的边界。

论文链接:https://arxiv.org/abs/2404.11565
项目地点:https://snap-research.github.io/mixture-of-attention/

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

耶耶耶耶耶

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表