w~视觉~合集13

科技颠覆者 · 2025-2-25 04:47:48

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

我自己的原文哦~ https://blog.51cto.com/whaosoft/13384038
#xxx w视觉合集13~17没了....

#ViTAR

作者提出了一种新奇的架构：恣意分辨率的视觉 Transformer （ViTAR）。ViTAR中的自顺应标志归并功能使模型能够自顺应地处理可变分辨率图像输入，渐渐将标志归并到固定大小，极大地加强了模型的分辨率泛化本事，并且在处理高分辨率输入时减少了盘算成本。完美支持恣意分辨率输入的ViT！4032×4032等超大分辨率性能完爆DeiT等
本文办理了视觉 Transformer （ViTs）面临的一个庞大寻衅：它们在差别图像分辨率之间的可扩展性受限。通常，当处理与练习时看到的差别的分辨率时，ViTs的性能会降落。作者的工作引入了两项关键创新来办理这个问题。起首，提出了一种新奇的模块，用于动态调整分辨率，该模块计划了一个单一的 Transformer 块，专门用于实现高效的增量 Token 集成。其次，在视觉 Transformer 中引入了模糊位置编码，以在多个分辨率之间提供一致的位置感知，从而防止对任何单一练习分辨率的过拟合。
ViTAR（具有恣意分辨率的视觉 Transformer ），展示了出色的顺应性，在1120x1120分辨率下达到83.3%的top-1精确率，在4032x4032分辨率下达到80.4%的精确率，同时低落了盘算成本。ViTAR在下游任务中也体现出强大的性能，如实例和语义分割，并且可以轻松与自监督学习技能（如 Mask 自动编码器）联合利用。作者的工作为进步ViTs的分辨率可扩展性提供了一种成本效益高的办理方案，为更灵活和高效的高分辨率图像处理铺平了蹊径。
1 Introduction
Transformer在天然语言处理（NLP）领域巨大的成功引发了盘算机视觉（CV）社区内的相当大探索。特别是，视觉Transformer（ViTs）将图像分割为非重叠的块，将每个块投射成标志，然后应用多头自注意力（MHSA）来捕获差别标志之间的依赖关系。得益于Transformer良好的建模本事，ViTs在多样的视觉任务中取得了不错的结果，包括图像分类，目标检测，视觉-语言建模，甚至是视频辨认。

图1：与其他模型的比力：当输入分辨率大于1792时，DeiT-B和ResFormer-B均碰到内存不足（OOM）错误。标注表示模型在FLOPS方面的盘算负载。结果表明，ViTAR具有较低的盘算开销和特别强的分辨率泛化本事。
尽管在各个领域取得了成功，但在须要处理可变输入分辨率的真实天下场景中，ViTs体现得并不尽如人意。很少有研究探索怎样将ViTs顺应到差别的分辨率上。实际上，没有练习可以涵盖全部的分辨率，一种简朴且广泛应用的方法是在将位置编码输入到ViT之前直接进行插值。然而，这种方法在图像分类等任务中会导致性能明显降落。为了办理这个问题，ResFormer在练习过程中融入了多分辨率图像。别的，对ViT利用的位置编码进行了改进，将它们转变为更加灵活的、基于卷积的位置编码。
然而，ResFormer仍面临寻衅。起首，它只能在相对较窄的分辨率变革范围内保持高性能，如图1所示。随着分辨率增加，超过892甚至更高时，模型性能明显降落。别的，由于采用了基于卷积的位置编码，将ResFormer整合到广泛采用的自监督框架中，如 Mask 自动编码器（Masked AutoEncoder, MAE）变得具有寻衅性。
在这项研究中，作者提出了具有恣意分辨率本事的视觉 Transformer （ViTAR），它以较低的运算负担处理高分辨率图像，并显现出强大的分辨率泛化本事。在ViTAR中，作者引入了自顺应 Token 归并（ATM）模块，该模块迭代处理经过切块嵌入的 Token 。ATM将全部 Token 散布到网格上。这个过程起首将网格内的 Token 视为一个单一单元。然后渐渐归并每个单元内的 Token ，终极将全部 Token 映射到一个固定外形的网格上。这个过程产生了所谓的“网格 Token ”集合。
随后，这组网格 Token 通过一系列多个多头自注意力模块进行特征提取。ATM模块不仅进步了模型良好的分辨率顺应性，同时也使得在处理高分辨率图像时具有较低的盘算复杂度。如图1所示，与DeiT和ResFormer相比，ViTAR能更好地泛化到未见过的分辨率。别的，随着输入分辨率的增加，ViTAR相关的盘算成本低落至仅相当于传统ViT的十分之一，甚至更低。
为了使模型能够泛化到恣意分辨率，作者还计划了一种称为模糊位置编码（FPE）的方法。FPE引入了一定程度的位置扰动，将精确的位置感知转化为带有随机噪声的模糊感知。这一步伐防止了模型对特定分辨率的位置过拟合，从而加强了模型的分辨率顺应性。同时，FPE可以被明白为一种隐式数据加强，它让模型能够学习到更鲁棒的位置信息，并实现更好的性能。
作者的贡献可以总结如下：

作者提出了一种简朴而有效的多分辨率适配模块——自顺应标志归并器，使ViTAR能够顺应多分辨率推理的要求。这个模块通过自顺应地归并输入标志，明显进步了模型的分辨率泛化本事，并在高分辨率输入下大大减轻了模型的盘算负担。
作者引入了一种模糊位置编码（Fuzzy Positional Encoding），这种编码让模型在练习过程中能够感知到鲁棒的位置信息，而不是过分拟合到特定的分辨率。作者将常用的精确点位置编码转换为模糊范围感知。这明显进步了模型对差别分辨率输入的顺应性。
作者进行了大量实验来验证作者方法在多分辨率推理中的有效性。作者的根本模型在224、896和4032输入分辨率下分别达到了81.9、83.4和80.4的top-1精确度。其鲁棒性明显超越了现有的ViT模型。ViTAR在实例分割和语义分割等下游任务中也展示了稳健的性能。

2 Related Works
视觉 Transformer 。视觉 Transformer （ViT）是一种强大的视觉架构，它在图像分类、视频辨认和视觉-语言学习上展示了令人印象深刻的性能。已经从数据和盘算服从的角度做出了许多努力来加强ViT。在这些研究中，大多数研究者通过微调将模型顺应比练习时更高的分辨率。很少有研究尝试在不进行微调的情况下直接将模型顺应未知分辨率，这通常会导致性能降落。在高分辨率上进行微调通常会产生额外的盘算成本。因此，计划一个可以直接处理多种分辨率的视觉模型尤为重要。然而，这个方向仍旧研究得不敷充实。
多分辨率推理。研究单一视觉模型能够在差别分辨率下进行推理仍旧是一个很大程度上未被探索的领域。对于大多数视觉模型来说，如果在推理时利用的分辨率与练习时利用的分辨率差别，且在没有微调的情况下直接进行推理，会观察到性能降落。作为这一领域的一项开创性工作，ResFormer采用了一种涉及多分辨率练习的方法，使模型能够顺应各种分辨率的输入图像。它还参加了几种独特的位置编码，加强了模型顺应差别分辨率的本事。
然而，ResFormer利用的位置编码是基于卷积神经网络，这种配置难以应用于如MAE如许的自监督学习框架中。别的，ResFormer自己基于原始的ViT架构，当输入分辨率增加时，它会带来明显的盘算开销。为了使模型能够顺应更广泛的分辨率范围，并适用于常用的自监督学习框架，有须要进行进一步的模型优化。
位置编码。位置编码对ViT至关重要，通常为其提供位置感知和性能提拔。ViT的早期版本利用了正弦余弦编码来传递位置信息，一些研究展示了这种位置编码方法的有限分辨率鲁棒性。相比之下，基于卷积的位置编码显示出更强的分辨率鲁棒性。当面临未见过的分辨率时，利用卷积位置编码的模型甚至可以实现性能提拔。不幸的是，卷积位置编码拦阻了模型在如MAE如许的自监督学习框架中的应用。这使得模型难以应用于大规模未标注数据集的练习。
3 Methods
Overall Architecture
ViTAR的总体框架如图2所示，重要包括自顺应标志归并器（ATM），模糊位置编码（FPE）以及传统的ViT架构。作者没有采用分层结构；相反，作者利用类似于ResFormer和DeiT的直接贯穿架构。

Adaptive Token Merger (ATM)

图3：网格注意力机制示意图。
类似于标准的多头自注意力机制, GridAttention同样融合了残差毗连。为了对齐标志的外形,作者利用了带有平均池化的残差毗连。完整的GridAttention如公式1所示。

Fuzzy Positional Encoding
许多研究指出，常用的可学习位置编码和正弦余弦位置编码对于输入分辨率的改变非常敏感，并且它们未能提供有效的分辨率顺应性。尽管基于卷积的位置编码显现出更好的分辨率鲁棒性，但其对相邻标志的感知阻止了其在如MAE如许的自监督学习框架中的应用。

作者的FPE与上述方法差别。在加强模型分辨率鲁棒性的同时, 它并不像卷积那样引入特定的空间结构。因此, 它可以应用于自监督学习框架中。这一特性使得ViTAR能够应用于大规模、未标注的练习集进行练习, 旨在获得更强大的视觉根本模型。

在推理过程中, 作者不再利用模糊位置编码, 而是选择精确的位置编码。当输入图像分辨率发生改变时, 作者对可学习的位置嵌入进行插值处理。由于在练习阶段利用了模糊位置编码, 对于任何插值的位置编码, 模型可能已经以某种方式看到并利用了它。因此, 模型获得了强大的位置顺应性。结果, 在推理过程中, 面临未见过的分辨率输入时, 模型仍旧体现出稳健的性能。
Multi-Resolution Training
类似于ResFormer，在练习ViTAR时，作者也采用了多分辨率练习方法。与ResFormer相比，ViTAR在处理高分辨率图像时明显低落了盘算需求，这使得作者能够在练习过程中利用更广泛的分辨率。与处理包罗各种分辨率的输入批次的ResFormer差别，并利用KL损失进行跨分辨率监督，ViTAR则处理每批具有一致分辨率的输入，仅依赖根本的交织熵损失进行监督。
基于多分辨率练习策略，ViTAR可以应用于非常广泛的分辨率，并在图像分类任务中取得精良结果。同时，在处理高分辨率输入任务（实例分割、语义分割）时，ViTAR以更小的盘算成本达到了现有模型的相似性能。详细来说，在须要高分辨率输入的实例分割和语义分割任务中，ViTAR在利用50%的FLOPs情况下，达到了与ResFormer和DeiT相似的结果
4 Experiments
作者在多个视觉任务上进行了广泛的实验，比方在ImageNet-1K上的图像分类，在COCO上的实例分割，以及在ADE20K上的语义分割。作者还将在自监督框架MAE上练习模型，以验证ViTAR与MAE之间的兼容性。在这些之后，作者进行了溶解研究，以验证ViTAR中每个组件的重要性。
Image Classification

表1：大小“S”与大小“B”的比力。与DeiT和ResFormer相比，ViTAR能够以极低的盘算成本处理高分辨率输入图像，并显现出强大的分辨率泛化本事。
Object Detection

Semantic Segmentation
设置。遵照ResFormer的做法，作者采用MMSegmentation实现了UperNet，以验证ViTAR的性能。作者利用的数据集是ADE20K。为了练习UperNet，作者遵照Swin中的默认设置。作者选择AdamW作为优化器，用于练习模型，迭代次数为80k/160k。

表4：在ADE20K数据集上差别 Backbone 网络的结果与比力。全部 Backbone 网络均在ImageNet-1k上进行预练习。

Compatibility with Self-Supervised Learning
Settings. ResFormer采用了卷积进行位置编码，这使得它难以与像Mask AutoEncoder（MAE）如许的自监督学习框架兼容，由于MAE会破坏图像的空间结构。由于ViTAR没有引入与卷积相关的空间结构，且作者提出的模糊位置编码（FPE）不须要额外的空间信息，因此它可以更方便地融入到MAE中。与标准的MAE差别，在练习期间作者仍旧采用多分辨率输入策略。作者对ViTAR-B进行了300个周期的预练习，并额外进行了100个周期的微调。
结果。作者在表6中陈诉了实验结果。仅预练习了300个周期的ViTAR，在与预练习了1600个周期的ViT模型对比中显示出明显的上风。当输入分辨率进步时，ViT+MAE的性能明显降落。另一方面，ViTAR+MAE显示出强大的分辨率鲁棒性。即使输入分辨率超过4000，模型仍旧保持高性能。这些发现表明，ViTAR在自监督学习框架中具有很大潜力，如MAE所示。ViTAR相对于MAE的性能上风可能源于两个方面。第一个是ATM使模型能够学习更高质量的标志，为模型提供了一部分信息增益。第二个是FPE作为一种隐式数据加强，答应模型学习更鲁棒的位置信息。正如Droppos所示，模型的位置信息对其学习过程至关重要。

表6：利用MAE框架的结果。作者所采用的练习分辨率为（224, 448, 672, 896, 1120）。
Ablation Study

表7：ATM的溶解研究。全部实验都是基于ViTAR-S进行的。
表7的结果显示，作者的ATM明显进步了模型的性能和分辨率顺应性。特别是在高分辨率场景中，ATM的上风越来越明显。详细来说，在4032分辨率下，作者提出的ATM比 Baseline 进步了7.6%的精确率。在224分辨率下，ATM也比AvgPool体现出0.5%的性能提拔。
模糊位置编码。 作者比力了差别的位置编码对模型分辨率泛化本事的影响。这包括在ResFormer中常用的simcos绝对位置编码（APE），条件位置编码（CPE），全局-局部位置编码（GLPE），Swin中的相对位置偏置（RPB），以及作者提出的FPE。值得注意的是，只有APE和FPE与MAE框架兼容。由于卷积固有的空间位置结构，别的两种位置编码难以整合到MAE学习框架中。对于没有采用MAE的模型，作者利用ViTAR-S进行实验，而对于采用MAE的模型，作者利用ViTAR-B。

差别位置编码在各种测试分辨率下的结果如表8所示。可以看出，作者提出的FPE在分辨率泛化本事方面体现出明显上风。别的，在MAE自监督学习框架下，FPE相对于APE也体现出更优越的性能，证明了FPE在更广泛领域的潜伏适用性。详细来说，在4032输入分辨率下，FPE的top-1精确率超过了GLPE 4.5%。在MAE框架中，FPE比APE高出4.6%。
练习分辨率。 与ResFormer仅在练习期间利用较低分辨率（128、160、224）差别，由于ViTAR的盘算服从，它可以处理具有非常高分辨率的输入。别的，采用更广泛的分辨率范围加强了ViTAR的泛化本事。在之前的实验中，作者利用（224、448、672、896、1120）这些分辨率来练习全部模型。在本节中，作者尝试减少练习期间利用的分辨率，以检验模型的分辨率泛化本事。

表9：练习分辨率的溶解研究。在练习过程中利用更多分辨率明显加强了模型的分辨率泛化本事。全部实验都是基于ViTAR-S进行的。
如表9所示的实验结果表明，在实验中利用的分辨率范围内，模型在练习中利用的分辨率越高，其分辨率泛化本事越强。特别是，当ViTAR利用这五个分辨率（224、448、672、896、1120）进行练习时，模型显现出最强的分辨率泛化本事。与仅利用（224、448）进行练习相比，在高分辨率（4032）上的精确率进步了4.9%。这有力地证明了多分辨率练习的有效性。
5 Conclusions
在这项工作中，作者提出了一种新奇的架构：恣意分辨率的视觉 Transformer （ViTAR）。ViTAR中的自顺应标志归并功能使模型能够自顺应地处理可变分辨率图像输入，渐渐将标志归并到固定大小，极大地加强了模型的分辨率泛化本事，并且在处理高分辨率输入时减少了盘算成本。别的，ViTAR还融入了模糊位置编码，使模型能够学习鲁棒的位置信息，并处理练习期间未碰到的高分辨率输入。
ViTAR还与现有的基于MAE的自监督学习框架兼容，表明其潜伏适用于大规模未标注数据集。在须要高分辨率输入的任务，如实例分割和语义分割中，ViTAR在几乎不损失性能的情况下明显低落了盘算成本。作者盼望这项研究能够引发后续对高分辨率或可变分辨率图像处理的研究。

#EMAGE

面部+肢体动画，一个框架搞定从音频生成数字人表情与动作
AI 数字人面部与肢体的驱动算法作为数字人研发的重要环节，可以大幅度低落 VR Chat、虚拟直播和游戏 NPC 等领域中的驱动成本。
近年来，基于语音生成面部、肢体和手部的动作的各类独立基线模型已经逐渐成熟。然而，直接将差别模型的动画结果混淆会导致终极全身整体的动画不和谐。研究者逐渐考虑利用同一的框架来同时生成面部表情和肢体动作。
然而，尽管研究社区在面部的表情和肢体的动作上分别存在同一的数据标准，已有的基线模型仅在独立的数据格式上进行练习和评估，比如 FLAME (面部) 和 AMASS (肢体)。社区仍旧缺少面向全身的，格式同一的练习数据和基线模型。
针对此问题，东京大学，清华大学，德国马普所的研究者团结提出了 EMAGE，一个从音频和动作的掩码中生成人体全身动作的框架，包括面部、局部肢体、手部和全局活动。

论文地址：https://arxiv.org/abs/2401.00374
项目主页：https://pantomatrix.github.io/EMAGE/
视频结果：https://www.youtube.com/watch?v=T0OYPvViFGE
hugging face space 链接：https://huggingface.co/spaces/H-Liu1997/EMAGE

EMAGE 研究论文包罗 BEAT2 与 EMAGE 两部分。用户可以自定义动作的输入，在接受预定义的时序与空间的动作输入方面具有灵活性，终极可生成完整的、与音频类似步的结果，EMAGE 输出全身动作的结果属于业界 SOTA。

BEAT2: 即 BEAT-SMPLX-FLAME，是语音与基于网格的动作数据的全身数据集，共有 60 小时的数据。BEAT2 将 SMPLX 的肢体与 FLAME 的面部参数相联合，并进一步办理了头部、颈部和手指等活动的模型问题，为研究社区提供了一个标准化且高质量的 3D 动捕数据集。

左：将精调后的 SMPLX 肢体参数结果（Refined Moshed）与 BEAT 的原始骨架数据（BEAT）、利用 AutoRegPro 的重定向数据（Retargeted）以及 Mosh++ 的初始结果（Moshed）进行比力，精调的结果拥有精确的颈部弯曲、适当的头颈外形比例和详细的手指弯曲。
右：将原始 BEAT 中的混淆表情权重可视化，与 ARKit 的根本脸部模板（BEAT）、基于线性 Wrapped 的方法（Wrapped Optimum）以及人工 PCA 映射 FACs 的表情优化（Handcraft Optimum）进行比力。终极的人工映射优化基于 FLAME 混淆表情，实现了精确的唇动细节和天然对话时的口型。

EMAGE：在练习过程中利用了肢体动作掩码的先验知识来进步推理性能。EMAGE 利用了一个音频与动作掩码的转换器，有效进步了音频生成动作和动作掩码下的动作重建的团结练习的服从，从而有效地将音频和肢体动作的提示帧编码进网络。动作掩码的肢体提示帧分别被用于生成面部和肢体动作。别的，EMAGE 自顺应地归并了音频的节奏和内容的语音特征，并利用身材各个部位 (共计四种) 的组合式 VQ- VAEs 来加强结果的真实性和多样性。

下图给出了 EMAGE 生成肢体动画的例子：

从上到下依次为：真实数据、不利用肢体提示帧生成的数据、利用肢体提示帧生成的数据、肢体提示帧的可视化：

EMAGE 可以生成多样化、具有语义和与音频同步的肢体动作，比方，对于 “spare time” 这个提示词，可以同时举起双手，而对于 “hike in nature” 则可以采取放松的动作。
别的，如第三行和第四行所示，EMAGE 可以灵活地接受非音频同步的肢体提示帧，基于恣意帧或关节，以此明白引导生成的动作。比方，重复类似的动作比如举起双手，或是改变行走方向等。注：此图中，第三列的生成结果的关节提示（灰色网格），与第四行的肢体提示帧的关节（绿色网格）并不一致。
下图是 EMAGE 生成面部动画的结果：

EMAGE 生成的面部活动与基线模型的对比。
分别是脸部单独生成的方法如 faceformer 与 codetalker、全身整体动作生成方法如 Habibie et al. 和 Talkshow。在 BEAT2 数据会合，由于 codetalker 具有离散的面部先验知识，以是即使 codetalker 的 MSE（均方误差）更高，即更偏离真实数据，但主观结果更好。而 EMAGE 则利用离散的面部先验知识和动作掩码的肢体提示帧，实现了更精准的唇动性能。
模型先容

EMAGE 是一个支持用户自定义输入，带有动作掩码与音频输入的全身动作建模框架，利用新提出的数据集 BEAT2（BEAT-SMPLX-FLAME），生成面部表情、局部身材动作、手部动作和全局平移活动时，是以音频与动作掩码作为基准团结练习。灰色身材部位是用户输入的肢体提示帧，蓝色表示整体的网络输出。
算法细节

EMAGE 采取了两种练习门路：动作掩码重建（MaskedGesture2Gesture，即 MG2G）和利用音频的动作生成（Audio2Gesture，即 A2G）。

MG2G：通过基于 Transformer 的动作的时空编码器与基于交织注意力的动作解码器，来对肢体提示帧进行编码。
A2G：利用输入的肢体提示与独立的的音频编码器，对于经过预练习的面部和肢体潜征进行解码。

可切换的交织注意力层在上述过程中作为关键组件，对于归并肢体提示帧和音频特征起重要作用。此融合使特征被有效地解耦并可以被用于动作的解码。动作潜征被重建之后，EMAGE 利用预练习的 VQ-Decoder 来对于面部和局部肢体活动进行解码。
别的，预练习的全局活动猜测器也被用来估计全身的全局平移，使得模型生成逼真并且连贯动作的本事得到加强。
CRA 和 VQ-VAEs 的与练习模型的细节

左图：内容节奏注意力模块 (CRA) 将音频的节奏（初始语音和振幅）与内容（来自文本的预练习词条嵌入）自顺应地相融合。这种架构可以让特定帧更有效地基于音频的内容或节奏，生成更加具有语义的动作。
右图：通过对于面部、肢体上半身、手部和肢体下半身的分别重建，来预练习四个组合式 VQ-VAEs 模型，以更加昭示地将与音频无关的动作相解耦。
前向流传网络对比

直接融合模块 (a) : 将音频特征与未精调的肢体特征归并，仅基于位置嵌入重组音频特征。
自注意力解码器模块 (b) : 为 MLM 模型中所采用的模块，只限于自回归推理的任务。
EMAGE (c) : 融合 (a) 与 (b) 的长处，同时使音频特征融合更有效，且可以自回归解码。

#DragNoise

文章的工作聚焦于利用扩散模型语义流传实现交互式点控制的图像编辑，只需点几个点，即可对用户输入的真实图片和生成图片精准快速的编辑，再也不消担心甲方 “天马行空” 的要求！拖拽P图又双叒升级了！DragNoise实现更快更准的拖拽编辑
新加坡管理大学何盛烽团队团结华南师范大学在 CVPR 2024 上发表了工作《Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation》。这一工作聚焦于利用扩散模型语义流传实现交互式点控制的图像编辑，只需点几个点，即可对用户输入的真实图片和生成图片精准快速的编辑，再也不消担心甲方 “天马行空” 的要求！
DragNoise 对内容填充、擦除、转脸、姿势控制等要求都能轻松快速的搞定，想要拖动那里只需点一个红点，想要拖到那里只需点一个蓝点，DragNoise 即可将红点的内容拖拽到蓝点。相对于 SOTA 方法 DragDiffusion，我们方法在有效保留图片原有信息的同时实现更精准快速的拖拽。
论文题目：
Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation
论文地址：
https://arxiv.org/abs/2404.01050
代码地址：
https://github.com/haofengl/DragNoise

DragNoise

DragDiffusion

在这一领域，一些近期的工作引起了广泛关注。利用生成对抗网络 (GAN) 的 DragGAN 是一个重要里程碑，DragDiffusion 进一步应用到扩散模型上，下图展示了这两个方法的重要思想。差别于传统的“Outer-inversion”将真实图像反演至 latent 空间，我们将这种将用户编辑反演至 latent 空间的内部优化过程称为“Inner-inversion”。
1. DragGAN：利用 StyleGAN2 生成器的第 6 层特征作为活动监督，将拖拽编辑反演至 latent code，从而产生相应的拖动结果图。尽管 DragGAN 具有创新性，但基于 GAN 固有的生成结果范围性使其无法获得高质量的编辑结果。别的，该工作和其他基于 GAN 的编辑方法涉及优化新的 latent code，难以保留图片全局内容。

DragGAN
2. DragDiffusion 利用大规模预练习扩散模型的上风，在这一领域取得了明显进步。DragDiffusion 延续了 DragGAN 的“Inner-inversion”方法，利用 U-Net 中间特征来监督优化噪声 latent map，从而控制后续去噪过程生成编辑后的图片。
然而，我们发现 DragDiffusion 出现了两个重要问题：梯度消失导致的拖拽不足或无效，以及较低的反演保真度。DragDiffusion 的反演反向流传链较长，当控制点前后的特征差别很小时，梯度消失的问题就会加剧，导致结果出现“欠拖拽”。
别的，保持图像的保真度仍旧是反演技能的长期寻衅。虽然 DragDiffusion 相比 DragGAN，通过将“Inner-inversion”扩展到二维 latent map，改善了空间控制，但由于其优化路径为反传到去噪过程中的有噪声 latent map，仍旧难以保持较高的保真度。

DragDiffusion
相比于以上的方法，我们提出的方法 DragNoise 改变猜测的噪声并流传优化来进行图像编辑。
DragNoise 的核心思想来源于我们对在扩散模型中一种“middle-block replacement”的操作的探索。该操作从某个去噪时间步开始，将差别层的特征复制到全部后续 timestep 的对应层。通过观察 DDIM inversion 重建图像的结果，我们探索了扩散模型在何时以及那边学习到何种条理的语义信息。
如下图所示，我们发现，bottleneck 特征是一种最优扩散语义表示，适合于高效编辑。由于它可以在早期 timestep 中有效地被编辑，因此利用 bottleneck 特征可以平滑地流传到后面的去噪步骤，从而确保结果图像扩散语义的完整性。别的，由于优化 bottleneck 的路径短，有效地克制了梯度消失问题。

Middle-Block Replacement
如下图所示，我们的方法 DragNoise 包括两个过程——扩散语义优化和扩散语义流传：

扩散语义优化：DragNoise 的编辑过程开始于练习高级语义的 timestep (比方，t=35)，在此阶段针对用户的拖拽编辑对 U-Net 的 bottleneck 特征进行扩散语义优化。优化后的 bottleneck 特征学习到预期的拖拽结果，并使 U-Net 输出相应的利用噪声。
扩散语义流传：上一个步骤中优化的 bottleneck 特征包罗了目标语义，因此与上面讨论的“middle-block replacement”操作相似，我们通过替换相应的 bottleneck 特征将优化后的 bottleneck 特征流传到全部后续时间步，从而克制了冗余的特征优化。这种替换以稳定、高效的方式明显加强了利用结果。

DragNoise
我们利用拖拽编辑数据集 DragBench 和差别的示例图像进行了广泛的定量和定性实验。如下图，DragDiffusion 在大幅编辑时，会出现破坏周围特征的情况。DragGAN 由于其生成本事的限定，对用户输入的图片编辑会严重失真，即使对于 GAN 生成的图片（下图中小猫），由于其优化的 latent code 为一维特征，缺少空间控制本事，会出现全局变革。

别的，我们在编辑点周围特征相似的极端情况下进行了实验，我们方法可以实现精准的控制，且控制本事优于 FreeDrag 方法。

与 DragDiffusion 相比，DragNoise 明显减少了 50% 以上的优化步骤。结果表明了 DragNoise 的编辑具有突出的服从和灵活性。

我们在 DragBench 数据集上进行了定量实验，结果达到了 SOTA。

别的，我们展示更多和 DragDiffusion 的对比结果，以表明我们方法广泛的有效性。

最后，我们展示更多的 DragNoise 的编辑过程，以表明 DragNoise 的连续性和稳定性。

#PSLNet

本文分享论文Perceptive self-supervised learning network for noisy image watermark removal，由西工大&广西师大&港中文团结提出一种基于感知自监督学习网络的噪声图像去水印方法。

作者：田春伟，郑梦华，李波，张艳宁，张师超，张大鹏
单元：西北工业大学、空天地海一体化大数据应用技能国家工程实验室、广西师范大学、香港中文大学
原文链接：https://arxiv.org/abs/2403.02211
代码链接：https://github.com/hellloxiaotian/PSLNet

01择要
现有方法通常利用有监督方式来练习图像去水印模型。然而，在现实天下中难以获得参考图像以及相机拍摄图像过程中会受到噪声的影响。
为了降服这些缺点，本文中提出了一种基于感知自监督学习网络的噪声图像去水印方法（Perceptive Self-supervised Learning Network for Noisy Image Watermark Removal，PSLNet）。PSLNet依赖于一个并行网络完成图像去除噪声和水印。
此中，上网络利用任务分解的思想依次去除噪声和水印。下网络利用退化模型的思想同时去除噪声和水印。两个网络能提取互补信息，完成噪声图像的去水印。详细为，配对的水印图像是通过自监督的方式获得的，而配对的噪声图像是通过监督的方式获得的。为了加强获得图像的清晰度，通过交互两个子网络和融合获得的清晰图像进一步提取结构信息和加强像素，提拔图像水印去除的结果。
别的，考虑到纹理信息，利用混淆损失来加强噪声图像水印去除的鲁棒模型。与现有的卷积神经网络相比，提出的PSLNet在噪声图像水印去除方面非常有效。
PSLNet代码可以在https://github.com/hellloxiaotian/PSLNet获取。
重要贡献：

利用自监督思绪来办理非参考图像的图像水印去除问题。
利用分解和退化模型的思想，同时处理带有噪声和水印的图像复原任务。
计划了融合机制加强结构信息和加强像素，进一步提拔噪声图像水印去除的视觉结果。
计划结构和纹理混淆损失来进步噪声图像水印去除的性能。

02 方法
PSLNet网络结构如图1所示：

图1 PSLNet网络结构图
03 实验
本文提出的方法在本文提出的数据集上超过了很多盛行的方法，如：DRD-Net、EAFNWDD和FastDerainNet等。更多的结果如表1-表8所示：
表1 差别方法复原透明度为0.3，噪声等级分别为0、15、25和50的噪声水印图像的PSNR、SSIM和LPIPS结果

表2 差别方法复原透明度为0.3、0.5、0.7和1.0，噪声等级分别为25的噪声水印图像的PSNR、SSIM和LPIPS结果

表3 差别方法复原透明度为0.3，噪声等级分别为0、15、25和50（盲噪声练习）的噪声水印图像的PSNR、SSIM和LPIPS结果

表4 差别方法复原透明度为0.3（盲水印练习），噪声等级分别为0、15、25和50（盲噪声练习）的噪声水印图像的PSNR、SSIM和LPIPS结果

表5 差别方法复原透明度为0.5、0.7和1.0（盲水印练习），噪声等级为25（盲噪声练习）的噪声水印图像的PSNR、SSIM和LPIPS结果

表6 差别方法复原透明度为0，噪声等级为15、25和50（盲噪声练习）的噪声图像的PSNR、SSIM和LPIPS结果

表7 差别方法复原透明度为0.3、0.5、0.7和1.0（盲水印图像练习），噪声等级为0的水印图像的PSNR、SSIM和LPIPS结果

表8 差别图像去水印方法的复杂度

别的，本文也制作了2组可视化结果从定性分析角度来验证本文提出方法的有效性，如图2和图3所示：

图2 差别方法的可视化结果（噪声等级为25，水印透明度为0.3）：(a)原图 (b)噪声水印图像(20.02 dB) (c) DnCNN(28.50 dB) (d) DRDNet(27.03 dB) (e) FastDerainNet (26.32 dB) (f) FFDNet(26.98 dB) (g) IRCNN(27.39 dB) (h) PSLNet(29.72 dB)

图3 差别方法的可视化结果（噪声等级为15，水印透明度为0.3）：(a)原图 (b)噪声水印图像(24.42 dB) (c) DnCNN (34.15 dB) (d) DRDNet (27.46 dB) (e) FastDerainNet (31.88 dB) (f) FFDNet (32.67 dB) (g) IRCNN (32.96 dB) (h) PSLNet (35.19 dB)
04 结论
本文提出了一种基于感知自监督学习网络的噪声图像去水印方法。该方法依赖于一个并行网络，并根据任务分解的办理方案思绪，去除噪声和水印。此中，上网络根据任务分解的思想，渐渐去除噪声和水印。下网络根据退化模型的思想，同时去除噪声和水印。
为了办理获取参考图像困难的问题，采用自监督学习方法根据给定的水印图像获取参考图像。为了获得更清晰的图像，两个子网络及其获得的图像分别被融合，以加强结构信息和像素。别的，通过感知思想和像素关系，计划了混淆损失，以提取更多的纹理信息。
广泛的实验结果表明，提出的感知自监督学习网络方法对噪声图像水印去除非常有效。

#AFNet

本文首次提出基于在噪声位姿等退化场景下的多视角深度估计的鲁棒性基准测试，分析了这些退化的缘故原由以及怎样办理这些退化场景，通过提出的自顺应融合方法AFNet，充实联合了单视角和多视角深度估计的上风。实验表明，AFNet在非退化场景（位姿，内参等精准）以及退化场景下同时达到了SOTA。
论文标题：Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving
论文链接：https://arxiv.org/pdf/2403.07535.pdf
代码链接：https://github.com/Junda24/AFNet/
文章第一作者是来自华中科技大学的博士生程俊达，其他作者来自负疆科技。
1.引言
随着盘算机视觉的发展，基于深度学习的单目多视角深度估计已经在多个公开数据集上显现出了良好的性能，在理想情况下，它比单视角深度估计拥有更高的精度（metric scale）和鲁棒性。但是多视角深度估计的精度高度依赖于相机内参，相机位姿的精度，以及足够的translation来进行三角化获取metric depth。而在实际的自动驾驶应用场景中，通过SLAM获得的位姿以及相机内参是带有噪声的，并且汽车可能会在交通灯处停车或者因掉头而没有足够的translation，这些不可克制的退化场景是无法满足投影原理的，进而极大的影响多视角深度估计的精度。
为了应对退化场景这一寻衅，我们提出了单视角和多视角的自顺应融合方法AFNet。相比多视角，单视角深度估计更多的是依赖于从练习数据中获取的对场景的语义明白以及透视投影线索，在无纹理区域，以及动态场景会更加鲁棒，并且不依赖于相机位姿，以是对于上述退化场景下是更有上风的。但是由于尺度模糊问题，单视角深度估计的精度是低于多视角深度估计的。
因此我们以为，能不能通过一种融合方式，充实的发挥单视角和多视角深度估计的上风，在保持多视角的高精度的同时，融合获得单视角深度估计在退化场景下的鲁棒性，同时达到精度高鲁棒性好。
因此，我们通过计划基于重投影置信度的自顺应融合方法，在差别场景下去自顺应选择单视角和多视角深度估计中更可靠的分支，实现了同时在噪声pose以及精准pose下的高精猜测，极大的提拔了深度估计系统的鲁棒性。
作者的贡献可以总结如下：

我们提出了AFNet来自顺应的融合单视角和多视角深度从而获得了更加鲁棒高精的fusion depth，在DDAD和KITTI自动驾驶数据集达到了SOTA。
我们是第一个提出融合单视角和多视角来办理多视角深度估计在噪声pose等退化场景下会fail的，并且提出了一个新的鲁棒性测试benchmark来评估多视角深度估计系统在噪声pose下的性能。我们的方法在鲁棒性测试benchmark上也是达到了SOTA。
我们提出的AF module能够提拔多视角深度估计方法在动态物体区域的性能。

2.方法
1.整体结构

2.单视角和多视角分支

3.自顺应融合模块

3.实验
1.benchmark performance

当拥有gt pose作为输入时，我们在单目深度估计方法中达到SOTA，并且具有很明显的上风，并且我们实现了精度和服从的优异均衡。
2.动态物体区域体现

我们的AF module能够明显提拔多视角深度估计在动态物体区域的体现，如上表所示。
3.Robustness benchmark performance

AFNet在所提出的鲁棒性基准测试中也是明显优于其他sota方法，AFNet随着pose噪声的逐渐增大，仍旧保持较高的精度，拥有最佳的鲁棒性。
4.可视化结果

随着噪声的增大，可以看出其他方法由于噪声而出现明显的噪点甚至完全fail，而我们的AFNet始终保持精准猜测，具有更强的抗噪声干扰本事。

多帧点云融合可视化结果，可以看出我们的depth具有很好的多帧一致性以及精准的边缘细节。
4.结论
作者提出了一个单视角，多视角自顺应融合的深度估计系统，有效办理了多视角深度估计无法处理退化场景的难题，同时提拔了精度和鲁棒性，大量实验证明了该方法的优越性和有效性。

#img2img-turbo

可玩性极强！
简笔素描一键变身多风格画作，还能添加额外的描述，这在 CMU、Adobe 团结推出的一项研究中实现了。512x512图像推理，A100只用0.11秒
作者之一为 CMU 助理教授朱俊彦，其团队在 ICCV 2021 聚会会议上发表过一项类似的研究：仅仅利用一个或数个手绘草图，即可以自定义一个现成的 GAN 模型，进而输出与草图匹配的图像。

论文地址：https://arxiv.org/pdf/2403.12036.pdf
GitHub 地址：https://github.com/GaParmar/img2img-turbo
试玩地址：https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
论文标题：One-Step Image Translation with Text-to-Image Models

结果怎样？我们上手试玩了一番，得出的结论是：可玩性非常强。此中输出的图像风格多样化，包括电影风、3D 模型、动画、数字艺术、拍照风、像素艺术、奇幻画派、霓虹朋克和漫画。

prompt 为「鸭子」。

prompt 为「一个草木环绕的小房子」。

prompt 为「打篮球的中国男生」。

prompt 为「肌肉男兔子」。

在这项工作中，研究者对条件扩散模型在图像合成应用中存在的问题进行了针对性改进。这类模型利用户可以根据空间条件和文本 prompt 生成图像，并对场景布局、用户草图和人体姿势进行精确控制。
但是问题在于，扩散模型的迭代导致推理速率变慢，限定了实时应用，比如交互式 Sketch2Photo。别的模型练习通常须要大规模成对数据集，给很多应用带来了巨大成本，对其他一些应用也不可行。
为了办理条件扩散模型存在的问题，研究者引入了一种利用对抗学习目标来使单步扩散模型顺应新任务和新领域的通用方法。详细来讲，他们将 vanilla 潜伏扩散模型的各个模块整合到拥有小的可练习权重的单个端到端生成器网络，从而加强模型保留输入图像结构的本事，同时减少过拟合。
研究者推出了 CycleGAN-Turbo 模型，在未成对设置下，该模型可以在各种场景转换任务中优于现有基于 GAN 和扩散的方法，比如昼夜转换、添加或移除雾雪雨等天气结果。
同时，为了验证自身架构的通用性，研究者对成对设置进行实验。结果显示，他们的模型 pix2pix-Turbo 实现了与 Edge2Image、Sketch2Photo 平分秋色的视觉结果，并将推理步骤缩减到了 1 步。
总之，这项工作表明了，一步式预练习文本到图像模型可以作为很多下游图像生成任务的强大、通用主干。
方法先容
该研究提出了一种通用方法，即通过对抗学习将单步扩散模型（比方 SD-Turbo）适配到新的任务和领域。如许做既能利用预练习扩散模型的内部知识，同时还能实现高效的推理（比方，对于 512x512 图像，在 A6000 上为 0.29 秒，在 A100 上为 0.11 秒）。
别的，单步条件模型 CycleGAN-Turbo 和 pix2pix-Turbo 可以执行各种图像到图像的转换任务，适用于成对和非成对设置。CycleGAN-Turbo 超越了现有的基于 GAN 的方法和基于扩散的方法，而 pix2pix-Turbo 与最近的研究（如 ControlNet 用于 Sketch2Photo 和 Edge2Image）平分秋色，但具有单步推理的上风。
添加条件输入
为了将文本到图像模型转换为图像转换模型，起首要做的是找到一种有效的方法将输入图像 x 归并到模型中。
将条件输入归并到 Diffusion 模型中的一种常用策略是引入额外的适配器分支（adapter branch），如图 3 所示。

详细来说，该研究初始化第二个编码器，并标志为条件编码器（Condition Encoder）。控制编码器（Control Encoder）接受输入图像 x，并通过残差毗连将多个分辨率的特征映射输出到预练习的 Stable Diffusion 模型。该方法在控制扩散模型方面取得了明显结果。
如图 3 所示，该研究在单步模型中利用两个编码器（U-Net 编码器和条件编码器）来处理噪声图像和输入图像碰到的寻衅。与多步扩散模型差别，单步模型中的噪声图直接控制生成图像的布局和姿态，这往往与输入图像的结构相抵牾。因此，解码器吸收到两组代表差别结构的残差特征，这使得练习过程更加具有寻衅性。
直接条件输入。图 3 还阐明了预练习模型生成的图像结构受到噪声图 z 的显着影响。基于这一见解，该研究发起将条件输入直接馈送到网络。为了让主干模型顺应新的条件，该研究向 U-Net 的各个层添加了几个 LoRA 权重（见图 2）。
保留输入细节
潜伏扩散模型 (LDMs) 的图像编码器通过将输入图像的空间分辨率压缩 8 倍同时将通道数从 3 增加到 4 来加快扩散模型的练习和推理过程。这种计划虽然能加快练习和推理速率，但对于须要保留输入图像细节的图像转换任务来说，可能并不理想。图 4 展示了这一问题，我们拿一个白天驾驶的输入图像（左）并将其转换为对应的夜间驾驶图像，采用的架构不利用跳跃毗连（中）。可以观察到，如文本、街道标志和远处的汽车等细粒度的细节没有被保留下来。相比之下，采用了包罗跳跃毗连的架构（右）所得到的转换图像在保留这些复杂细节方面做得更好。

为了捕获输入图像的细粒度视觉细节，该研究在编码器和解码器网络之间添加了跳跃毗连（见图 2）。详细来说，该研究在编码器内的每个下采样块之后提取四个中间激活，并通过一个 1×1 的零卷积层处理它们，然后将它们输入到解码器中对应的上采样块。这种方法确保了在图像转换过程中复杂细节的保留。

实验
该研究将 CycleGAN-Turbo 与之前的基于 GAN 的非成对图像转换方法进行了比力。从定性分析来看，如图 5 和图 6 显示，无论是基于 GAN 的方法照旧基于扩散的方法，都难以在输出图像真实感和保持结构之间达到均衡。

该研究还将 CycleGAN-Turbo 与 CycleGAN 和 CUT 进行了比力。表 1 和表 2 展示了在八个无成对转换任务上的定量比力结果。

CycleGAN 和 CUT 在较简朴的、以对象为中心的数据集上，如马→斑马（图 13），显现出有效的性能，实现了低 FID 和 DINO-Structure 分数。本文方法在 FID 和 DINO-Structure 距离指标上略微优于这些方法。

如表 1 和图 14 所示，在以对象为中心的数据集（如马→斑马）上，这些方法可以生成逼真的斑马，但在精确匹配对象姿势上存在困难。
在驾驶数据集上，这些编辑方法的体现明显更差，缘故原由有三：（1）模型难以生成包罗多个对象的复杂场景，（2）这些方法（除了 Instruct-pix2pix）须要先将图像反转为噪声图，引入潜伏的人为误差，（3）预练习模型无法合成类似于驾驶数据集捕获的街景图像。表 2 和图 16 显示，在全部四个驾驶转换任务上，这些方法输出的图像质量较差，并且不遵照输入图像的结构。

#ViT-CoMer

本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions，由百度提出视觉新骨干 ViT-CoMer，刷新密集猜测任务 SOTA。

论文链接：https://arxiv.org/pdf/2403.07392.pdf
开源地址：https://github.com/Traffic-X/ViT-CoMer，（接待各人试用和star）

1.算法结果
1.1.炸裂结果
检测结果SOTA

在未增加额外练习数据的情况下，ViT-CoMer-L在目标检测benchmark COCO val2017上达到了64.3% AP。此前检测的SOTA算法为Co-DETR，在未增加额外数据时Co-DETR的结果为60.7% AP，利用ViT-CoMer替换原backbone(Swin-L)的同时采用了ViT-Adapter提供的BEiTv2*作为预练习，其检测结果可达64.3% AP，相比力其他同体量算法ViT-CoMer结果更优。
分割结果SOTA

ViT-CoMer-L在语义分割 benchmark ADE20K val上获得了62.1% mIoU，10亿参数量以下结果SOTA。基于Mask2Former分割算法，对比了ViT-CoMer和其他先进的骨干网络（如RevCol-H，ViT-Adapter-L等），从表7可以看出，在相似体量下，ViT-CoMer算法达到了SOTA的结果，甚至可媲美其他更大体量的模型（ViT-Adapter-G，1B参数）
小体积大能量

Small也可以当Large用，ViT-CoMer-S （1/6 ViT-L参数量）取得与ViT-L相当的检测结果。基于经典的Mask R-CNN检测框架，我们跨体量跨骨干网络对比了在COCO数据集上的结果，惊喜的发现ViT-CoMer-Small(仅ViT-Large参数量的1/6)可以达ViT-Large类似结果，而当采用更先进的预练习时结果又出现了代差级的提拔。
差别规模结果样样强
ViT-CoMer 在差别的参数规模下都可以获得SOTA结果。同样基于Mask-RCNN检测框架，我们对比了差别骨干网络在COCO数据集上的结果，不难发现，ViT-CoMer在差别参数规模、差别练习配置下结果均领先于其他先进的骨干网络。
1.2.性能
训推性能均强悍（Rebuttle内容，后续补充至github）

类似的结果下，ViT-CoMer在练习、推理性能（耗时更短）上都更优。基于Mask-RCNN检测框架，对比分析了ViT-Large、ViT-Adapter-Large和ViT-CoMer-Base-light三种方案的性能，可以看出ViT-CoMer-Base-light（利用少量的CTI模块）用更短的练习和推理时间，即可取得更好的结果。
1.3.可拓展性
零成本利用先进预练习

ViT-CoMer可以直接加载差别的预练习（如ImagNet-1K，ImageNet-22K，MM等）。基于Mask-RCNN检测和UperNet分割框架，依次利用Imagenet-1K，Imagenet-22K和多模态等预练习初始化ViT分支。从表3和表6中我们可以看出预练习越强，算法结果越好。
高效兼容差别算法框架

ViT-CoMer可以直接嵌入到差别的检测框架中。将ViT-CoMer迁徙到Cascade Mask-RCNN，ATSS和GFL等检测框架中，从表2可以看出，ViT-CoMer结果较其他骨干网络更优。
轻松适配差别Transformer

CoMer不仅仅可以适配ViT框架，其他基准骨干网络（如Swin）也可以轻松适配。我们尝试将CoMer迁徙到ViT之外的其他Transformer框架中，我们惊喜的发现，CoMer同样可以在此中发挥作用，从表11中可以看到，适配后X-CoMer结果相比力基准模型更优。
有效的PEFT策略（Rebuttle内容，后续补充至github）

CoMer也可以作为一种有效的PEFT策略利用。当我们freeze住ViT部分，只练习CoMer部分参数，可以看出CoMer结果要优于LoRA（ViT-CoMer-L（freeze ViT) > ViT-L(full-tune) > ViT-L(freeze ViT + LoRA))。
密集猜测任务不是极限
除了密集猜测任务之外，我们也尝试了ViT-CoMer在分类任务上的结果。我们在Imagenet数据集上对比了ViT和ViT-CoMer的结果，实验显示我们的算法依旧有很强的竞争力。

2.动机
当前Tranformer骨干网络处理密集猜测任务存在以下问题：

ViT骨干网络处理密集猜测任务（检测、分割等）结果不佳；
特制骨干网络须要重新预练习，增加练习成本；
适配骨干网络仅对ViT和卷积特征进行信息交互，缺少差别尺度特征之间的信息交互。

针对以上三个问题，Vit-CoMer做了如下优化：

针对问题1和2, 计划了一种新奇的密集猜测骨干网络，它集成了ViT和CNN特征。由于网络保留了完整的ViT结构，以是可以有效地利用各种ViT开源预练习权重，同时网络融入多感受野空间多尺度卷积特征，办理了ViT特征之间缺乏交互以及表征尺度单一的问题。
针对问题3, 计划了一种CNN-Transformer双向交互模块，不仅能够丰富与加强相互之间的特征，还能同时进行层级之间多尺度特征的融合，从而得到更加丰富的语义信息，有利于处理密集猜测任务。

3.方案
3.1.整体框架

ViT-CoMer网络架构十分简便（如图3所示），此中ViT占主体（如红色框内1所示），适配一个轻量的CNN结构（如绿色框内所示）。整个结构包罗2个关键模块：MRFP(如绿2）和CTI（如绿3）。此中MRFP重要作用是补充多尺度和局部特征信息。CTI的作用则是对差别架构特征信息进行加强。
3.2.多感受野特征金字塔模块（MRFP）
MRFP是由特征金字塔和多感受野卷积层组成。特征金字塔能提供丰富的多尺度信息，而后者通过差别的卷积核扩展感受野，加强了CNN特征的长距离建模本事。该模块如图4所示。

3.3.CNN-Transformer双向交互融合模块（CTI）
CTI是一种跨架构的特征融合方法，如图5所示。在不改变ViT的结构的情况下，引入了CNN的多尺度特征，由于ViT是单尺度特征，CNN为多尺度特征，在实现的时间直接将CNN中与ViT同尺度的特征进行相加（上风，简朴高效）。同时对相加后的特征进行了多尺度自注意力操作，如许差别尺度的特征之间也进行了借鉴和加强。通过双向交互模块，CTI缓解了ViT中缺乏局部信息交互和非条理特征的问题，同时进一步加强了CNN的长距离建模和语义表征本事。

4.可视化结果
目标检测和实例分割可视化对比分析

与ViT相比：从图6可以看出，ViT-CoMer产生了更具条理感的多尺度特征，具备丰富的局部边缘和纹理，提拔了目标检测和实例分割的结果。

与ViT-Adapter相比（Rebuttle内容，后续补充至github）：从图1可以看出，ViT-Adapter和ViT-CoMer同时具备丰富的多尺度纹理信息，但是相比ViT-Adapter, ViT-CoMer的信息颗粒度更胜一筹。更细节的内容请阅读原文和代码。

#xxx

#xxx

#xxx

#xxx

#xxx

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

		自动登录	找回密码
密码			立即注册

w~视觉~合集13

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块