《UniVS: Unified and Universal Video Segmentation with Prompts as Quer ...

用多少眼泪才能让你相信 · 2024-9-11 16:06:41

论文来源：https://arxiv.org/abs/2402.18115
《UniVS: Unified and Universal Video Segmentation with Prompts as Queries》是2024CVPR中的一篇关于视频分割的论文，
主要内容：

论文提出了一个名为UniVS的新型统一视频分割架构，它能够处置惩罚多种视频分割任务，包罗类别指定的视频分割（category-specified VS）和提示指定的视频分割（prompt-specified VS）。UniVS通过将视频分割任务转换为由提示引导的目的分割任务，从而消除了传统方法中需要的开导式帧间匹配过程。
创新点：

使用提示作为查询（Prompts as Queries）：UniVS将先前帧中目的的提示特征平均值作为初始查询，以明确解码掩码。
目的提示交叉注意力层（Target-wise Prompt Cross-Attention Layer）：引入了目的提示交叉注意力（ProCA）层，以在记忆池中整合提示特征。
统一的视频掩码解码器（Unified Video Mask Decoder）：通过使用预测的实体掩码作为视觉提示，UniVS将差异的视频分割任务转换为提示引导的目的分割任务。
通用练习和测试：UniVS不但统一了差异的视频分割任务，还自然实现了通用练习和测试，确保在差异场景下的鲁棒性能。
跨多个基准的性能平衡：UniVS在10个具有挑衅性的视频分割基准测试中表现出色，涵盖了视频实例、语义、全景、对象和引用分割任务。

网络布局：

UniVS主要由三个模块构成：

图像编码器（Image Encoder）：将RGB图像转换为特征令牌。
提示编码器（Prompt Encoder）：将原始视觉/文本提示转换为提示嵌入。
统一视频掩码解码器（Unified Video Mask Decoder）：明确解码视频中任何实体或提示引导目的的掩码。

统一视频掩码解码器包罗四个关键组件：

初始提示查询（Initial Prompt Query）：使用与目的相干的所有提示令牌的平均值作为初始查询。
提示交叉注意力（Prompt Cross-Attention, ProCA）：增强目的表现的独特性。
“Prompt Cross-Attention”（ProCA）是统一视频掩码解码器（Unified Video Mask Decoder）中的一个关键组件。它的目的是增强目的表现的独特性，以便更好地域分视频中的差异目的。以下是ProCA层的一些详细信息：
（1）功能和目的：
增强目的区分性：ProCA层通过学习提示信息来增强目的表现的独特性，这对于区分视频中具有相似特征的目的（例如，差异的人或物体）尤其紧张。
整合提示特征：该层将存储在记忆池中的提示特征与目的的当前表现结合起来，以天生更丰富、更正确的目的掩码。
工作原理：
初始查询：对于每个目的，ProCA层使用先前帧中该目的的提示特征的平均值作为初始查询。
交叉注意力机制：ProCA层使用交叉注意力机制来整合提示特征。这涉及到盘算查询（目的的初始查询）与键（提示特征）之间的注意力分数，然后使用这些分数来加权值（也是提示特征）。
更新表现：通过这种方式，ProCA层更新目的的表现，使其包罗更多与提示相干的信息，从而在解码过程中天生更正确的掩码。
（2）数学表达：
ProCA层的盘算可以表现为以下数学公式：
其中：
( q^*_i ) 是目的的初始查询。
( P^*_i ) 是提示特征。
( W^Q ), ( W^K ), 和 ( W^V ) 是投影权重。
( d_k ) 是缩放因子，用于控制注意力分数的尺度。
（3）在UniVS框架中，ProCA层位于图像交叉注意力层之前，以确保在解码器的深层阶段不会丢失提示信息。通过这种方式，UniVS能够将差异的视频分割任务转换为由提示引导的目的分割任务，从而避免了传统方法中需要的开导式帧间匹配过程。
ProCA层是UniVS能够处置惩罚多种视频分割任务的关键，它使得模子能够灵活地处置惩罚各种提示范例，包罗视觉点击、框选、遮罩和涂鸦，以及文本形貌。这种设计提高了模子的通用性和适应性，使其能够在差异的视频分割场景中表现出色。
图像交叉注意力（Image Cross-Attention）：专注于从输入帧中提取实体细节。
分离自注意力（Separated Self-Attention, SepSA）：隔离可学习查询和提示查询之间的交互，同时促进目的在空间和时间域内的内容交互。

别的，UniVS在练习过程中包罗三个阶段：图像级练习、视频级练习和长视频微调，以逐步提高模子对视频数据的理解本领。
论文还进行了一系列的消融研究，以验证所提出组件的有用性，并通过实验结果展示了UniVS在多个视频分割任务上的性能。
分割过程

在论文《UniVS: Unified and Universal Video Segmentation with Prompts as Queries》中，完成分割部分的过程涉及以下几个关键步骤：

图像编码（Image Encoding）：
- 输入的RGB视频帧起首通过图像编码器转换成特征表现。这通常包罗一个卷积神经网络（CNN）骨干网络，它提取空间特征，以及一个像素解码器，它融合差异尺度的特征以增强表现。
提示编码（Prompt Encoding）：
- 对于视觉提示（如点击、框选、遮罩、涂鸦等），通过视觉采样器从图像特征中提取特征点，形成视觉提示嵌入。
- 对于文本提示（如类别名称或形貌性文本），使用CLIP文本编码器将文本转换为嵌入，然后通过交叉注意力层与图像特征进行交互，天生文本提示嵌入。
统一视频掩码解码（Unified Video Mask Decoding）：
- 使用初始提示查询（由先前帧中目的的提示特征平均值天生）作为掩码解码器的输入。
- 引入目的提示交叉注意力（ProCA）层，以整合记忆池中的提示特征，并增强目的表现的独特性。
- 通过图像交叉注意力层和分离自注意力（SepSA）层，专注于从输入帧中提取目的的详细信息，并在空间和时间域内促进目的内容的交互。
掩码预测：
- 掩码解码器的输出通过一个前馈网络（FFN）和其他转换层，最终天生每个目的的预测掩码。
- 对于类别指定的视频分割任务，使用可学习查询来识别第一帧中的所有实体掩码，然后使用非极大值抑制（NMS）和分类阈值来过滤冗余掩码和低置信度掩码。
跨帧跟踪和实体匹配：
- 对于类别指定的视频分割任务，使用周期性目的检测计谋，将分割转换为提示引导的目的分割题目。
- 对于提示指定的视频分割任务，使用预测的实体掩码作为视觉提示，更新目的的记忆池，并在后续帧中识别和分割目的。
练习和优化：
- 练习过程中，使用像素级掩码监督损失、分类损失和ReID损失来优化模子参数。
- 练习分为三个阶段：图像级练习、视频级练习和长视频微调，以逐步提高模子对视频数据的理解本领。
推理和输出：
- 在推理阶段，模子接收视频帧和提示，通过上述编码和解码过程预测每个目的的掩码。
- 最终输出是视频中每个目的的分割掩码，这些掩码可以用于各种应用，如视频编辑、增强现实、视频恢复等。

整个分割过程是端到端的，意味着从输入视频帧到输出分割掩码的所有步骤都是连续的，而且可以通过反向传播和梯度下降自动优化。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

《UniVS: Unified and Universal Video Segmentation with Prompts as Quer ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块