【论文解读】Pose2Seg:无检测人体实例分割(附论文地址) ...

打印 上一主题 下一主题

主题 996|帖子 996|积分 2988


论文:[1803.10683v3] Pose2Seg: Detection Free Human Instance Segmentation​
​本文先容了一种名为Pose2Seg的新型人体实例分割框架,它不依赖于传统的目标检测方法,而是直接利用人体姿态信息来区分和分割图像中的个体。这一方法特别适用于处置惩罚人体重叠和遮挡的情况,这些情况在以往的目标检测底子上的分割方法中是一个难题。Pose2Seg框架通过一个称为Affine-Align的对齐模块,基于人体姿态而非边界框来对齐区域,从而进步了分割精度。此外,框架还融合了人工骨架特性,以增强网络对重叠人体的区分本领。为了评估这一方法,作者引入了一个新的基准数据集OCHuman,它专注于严峻遮挡的人体实例,并提供了边界框、人体姿态和实例掩码的全面标注。实验结果表明,Pose2Seg在OCHuman数据集上的性能显著优于现有的基于检测的方法,特别是在处置惩罚遮挡情况下。在一般一样平常场景中,Pose2Seg也显现出了良好的分割性能。消融实验进一步验证了Affine-Align和骨架特性对于提拔分割性能的紧张性。尽管Pose2Seg取得了显著希望,但仍存在改进空间,尤其是在关键点检测的准确性和鲁棒性方面。​

摘要​



  • 本文提出了一种基于人体姿态的实例分割框架,该框架不依赖于目标检测,而是直接基于人体姿态举行实例分割。​
  • 该框架在处置惩罚遮挡情况下的人体实例分割题目上,比现有的基于检测的方法更准确。​
  • 作者还引入了一个名为“Occluded Human (OCHuman)”的新基准数据集,专注于标注被遮挡的人体,包括边界框、人体姿态和实例掩码。​
​ 
引言

研究背景与动机

计算机视觉领域中与人类相干的研究日益增多,尤其是在多人姿态估计和人体实例分割方面。
传统的实例分割方法依赖于目标检测,但在处置惩罚重叠对象时存在局限性,尤其是在严峻遮挡的情况下。
人体作为特别种别

人体可以通过姿态骨架来定义,这使得在区分严峻交织的人体实例时,姿态骨架比边界框更为有效。
多人姿态估计希望

多人姿态估计领域已经取得了显著希望,尤其是不依赖于目标检测的自底向上方法。
基于姿态的实例分割框架

本文提出了一个新的框架,它基于人体姿态而非区域提议检测来分离实例,这在处置惩罚遮挡情况下更为有效。
引入了一个新的对齐模块AffineAlign,它基于人体姿态举行对齐,包括缩放、平移、旋转和左右翻转。
骨架特性的利用

明白使用人工骨架特性来指导分割模块,进步了分割的准确性,并使网络能够更容易区分在同一感兴趣区域(RoI)中严峻交织的差别实例。
OCHuman数据集

由于缺乏包含严峻遮挡人体和全面标注的公开数据集,作者引入了一个新的基准数据集OCHuman,它包含了边界框、人体姿态和实例掩码的全面标注,是最具挑战性的人体实例分割数据集之一。
重要贡献

提出了一个新的基于姿态的人体实例分割框架,特别是在遮挡情况下表现优异。
提出了AffineAlign对齐模块,用于基于人体姿态的图像窗口对齐使用人工骨架特性来指导分割模块,进一步提拔了分割准确性。
引入了OCHuman数据集,为研究遮挡题目提供了新的挑战性基准。

相干工作

多人姿态估计(Multi-Person Pose Estimation)

自顶向下方法(Top-down methods)

方法描述自顶向下方法首先使用目标检测来裁剪出每个人,然后在每个人体实例上应用单人姿态估计方法。这些方法因为依赖于目标检测,所以在处置惩罚严峻遮挡时存在缺陷。

代表性工作提到了一些代表性的工作,如 Cao 等人利用人体结构知识猜测关键点热图和 PAFs,然后毗连身材部位;Newell 等人设计了每个身材部位的标签得分图,并使用得分图来分组身材部位关键点。

自底向上方法(Bottom-up methods)

方法描述自底向上方法首先检测出所有人的身材部位关键点,然后聚类这些部位成为人体姿态的实例。这些方法不依赖于目标检测,因此在处置惩罚遮挡方面表现更好。

代表性工作Pishchulin 等人提出了一个复杂的框架,使用 CNN 分区并标记身材部位;Insafutdinov 等人使用 Resnet 进步精度,并提出图像条件的成对项来增长速率;Cao 等人使用人体结构知识,猜测关键点热图和 PAFs,并毗连身材部位;Newell 等人为每个身材部位设计了标签得分图,并用得分图来分组身材部位关键点。


实例分割(Instance Segmentation)

多阶段流水线方法

方法描述一些工作接纳多阶段流水线,首先使用检测生成边界框,然后应用语义分割。

代表性工作Girshick 等人提出了 Deformable Part Models 作为卷积神经网络;Hariharan 等人同时举行检测和分割;Hariharan 等人使用 Hypercolumns 举行对象分割和细粒度定位。

检测与分割的紧密集成方法

方法描述其他工作接纳检测和分割的紧密集成,比方 Mask R-CNN,它在一个端到端的框架中同时举行检测和分割。

代表性工作Mask R-CNN 是在 COCO 数据集竞赛中表现最好的框架。

联合人体姿态估计和实例分割的工作(Harnessing Human Pose Estimation for Instance Segmentation)

Mask R-CNN在检测对象的同时生成实例分割和人体姿态估计,但在实例分割使命中,仅使用掩码的表现比联合关键点和掩码更好。

Pose2Instance提出了一个级联网络,利用人体姿态估计举行实例分割,但依赖于人体检测,在边界框重叠大时表现不佳。

PersonLab将实例分割视为像素聚类题目,并使用人体姿态来细化聚类结果,尽管不基于边界框检测,但在分割使命上不如 Mask R-CNN 表现好。

Occluded Human Benchmark


OCHuman数据集先容

数据集规模与特点作者先容了他们创建的“Occluded Human (OCHuman)”数据集,该数据集包含4731张图像,共8110个详细标注的人体实例。这些图像中的人体实例都经历了严峻的遮挡。

数据集难度OCHuman数据集以其高难度著称,平均每人的边界框区域有超过67%被其他人遮挡,这使得它成为人体实例分割领域最复杂和最具挑战性的数据集之一。

标注(Annotations)

标注过程对于每张图像,作者首先标注出所有人体实例的边界框。然后计算所有人之间的IoU(交并比),并将MaxIoU大于0.5的个体标记为严峻遮挡实例。

注释内容OCHuman数据集包含了三种与人体相干的注释:边界框、实例掩码和17个身材关节位置。这些注释参考了COCO数据会合的身材关节定义,包括眼睛、鼻子、耳朵、肩膀、肘部、手腕、臀部、膝盖和脚踝等。

数据集分割(Dataset Splits)

分割目的由于OCHuman数据会合的所有实例都经历了严峻的遮挡,作者以为使用通用数据集(如COCO)作为训练集,然后用OCHuman数据集测试分割方法对遮挡的鲁棒性更为符合。

分割细节OCHuman数据集被分为验证集和测试集。通过随机选择,验证集包含2500张图像,测试集包含2231张图像,分别包含4313和3797个实例。

难度子集作者进一步将OCHuman数据集的实例分为两个子集:OCHuman-Moderate和OCHuman-Hard。OCHuman-Moderate包含MaxIoU在0.5到0.75之间的实例,而OCHuman-Hard包含MaxIoU大于0.75的实例,后者更具挑战性。

数据集统计(Dataset Statistics)

与COCO数据集的比较作者将OCHuman数据集与COCO数据会合的人物部门举行了比较。尽管COCO包含了全面的注释,但它包含的遮挡人体案例很少,因此无法帮助评估方法在面对遮挡时的本领。OCHuman数据集旨在涵盖与人体相干的三个最紧张使命:检测、姿态估计和实例分割,而且由于其严峻的遮挡情况,成为最具挑战性的基准。

统计数据作者提供了OCHuman数据集与COCO数据集的统计数据对比,包括图像数目、人物数目、平均MaxIoU等,以展示OCHuman数据集的挑战性。

方法


概述(Overview)

网络结构这部门提供了团体网络结构的概览,该结构继承图像和人体姿态作为输入。首先,使用底子网络提取图像特性,然后通过一个对齐模块(称为Affine-Align)根据人体姿态将区域对齐到统一的大小(本文中为64×64像素)。同时,为每个人体实例生成骨架特性,并将其与对齐后的区域合并。接着,使用称为SegModule的分割模块,该模块基于ResNet的残差单位设计。末了,使用Affine-Align操作中估计的矩阵来逆转对齐,得到最终的分割结果。

SegModule的深度作者还讨论了SegModule的深度对系统性能的影响,并举行了实验。

Affine-Align操作(Affine-Align Operation)

灵感来源Affine-Align操作受到Faster R-CNN中的RoIPooling和Mask RCNN中的RoI-Align的启发,但与它们差别,Affine-Align是基于人体姿态而不是边界框来对齐人物。

操作流程首先,通过聚类数据会合的姿态并使用每个聚类中心作为姿态模板,来表示数据会合的标准姿态。然后,对于图像中检测到的每个姿态,估计其与模板之间的仿射变换矩阵H,并根据变换误差选择最佳的H。末了,将H应用于图像或特性,并使用双线性插值将其变换到所需的分辨率。

人体姿态表示(Human Pose Representation)

姿态向量人体姿态表示为向量列表。每个向量P = (C1, C2, ..., Cm) ∈ Rm×3代表一个人的的姿态,其中Ci = (x, y, v) ∈ R3是一个3D向量,代表单个部位(如右肩、左踝)的坐标和该身材关节的可见性。m是数据集相干的参数,表示单个姿态中的部门总数,在COCO数据会合为17。

姿态模板(Pose Templates)

聚类作者使用K-means聚类从训练会合的姿态模板,以最佳代表各种人体姿态的分布。通过优化方程来聚类姿态,并定义两个人体姿态之间的距离。

模板生成在K-means聚类后,使用每个聚类的平均值Pµi形成姿态模板,并用它来代表整个群体。在Pµi中,v > 0.5的身材关节被视为有效点。


估计仿射变换矩阵(Estimate Affine Transformation Matrix)

矩阵优化优化方程来估计仿射变换矩阵H,该矩阵将姿态坐标变换得尽可能靠近模板坐标。H是一个2×3矩阵,包含5个独立变量:旋转、缩放因子、x轴平移、y轴平移和是否举行左右翻转。通过为每个模板定义一个分数来选择每个估计姿态的最佳模板。

骨架特性(Skeleton Features)

PAFs和部门置信度图这部门先容了骨架特性,接纳部门亲和场(PAFs)来表示人体姿态的骨架结构。PAFs是一个2通道的向量场图,对于COCO数据会合的每个人体姿态实例,PAFs是一个38通道的特性图。此外,还使用身材部位的部门置信度图来夸大这些区域的紧张性。对于COCO数据集,每个人体姿态有一个17通道的部门置信度图和一个38通道的PAFs图,因此每个人体实例的骨架特性总共有55个通道。

SegModule(SegModule)

SegModule设计由于在对齐后引入了骨架特性来人工扩展图像特性,SegModule需要有足够的感受野来完全明白这些人工特性,并学习它们与底子网络提取的图像特性之间的联系。因此,SegModule基于对齐RoIs的分辨率设计。SegModule以一个7×7、步长为2的卷积层开始,后跟几个标准残差单位,以实现对RoIs的大感受野。然后,使用双线性上采样层规复分辨率,再使用另一个残差单位和一个1×1的卷积层来猜测最终结果。如许的结构有10个残差单位,可以实现大约50像素的感受野,对应于64×64的对齐大小。


实验

遮挡情况下的性能(Performance on occlusion)

实验目的这部门评估了作者提出的方法在处置惩罚遮挡情况下的性能,并与Mask R-CNN举行了比较。

数据集所有方法都在COCOPersons数据集上训练,并在OCHuman数据集上测试。

结果基于关键点检测器基线的方法,作者的框架在OCHuman数据集上的性能比Mask R-CNN高出近50%。当使用地面真实(GT)关键点作为输入时,性能提拔超过两倍,表明更好的关键点检测器可以显著提拔框架在遮挡题目上的性能。


一般情况的性能(Performance on general cases)

实验目的这部门评估了模子在一般一样平常场景中的表现。

数据集在COCOPersons验证集上使用地面真实关键点作为输入,作者的模子在实例分割使命上到达了0.582的AP值。当使用猜测的姿态关键点时,AP值到达了0.555,而Mask R-CNN在同一数据集上仅到达了0.532的AP值。

与现有工作比较作者还将结果与PersonLab举行了比较,使用更重的骨干网络和多尺度猜测,作者的方法在性能上超过了PersonLab。



消融实验(Ablation Experiments)

实验目的这部门通过一系列消融实验来分析差别组件对团体性能的影响。

Affine-Align与RoI-Align的比较(Affine-Align v.s. RoI-Align)

遮挡情况在OCHuman验证集上,使用基于GT边界框的RoI-Align计谋到达了0.476的AP值,而基于GT人体姿态的Affine-Align到达了0.544的AP值,表明即使不考虑NMS在处置惩罚遮挡时的不敷,基于姿态的对齐计谋仍然优于基于边界框的对齐计谋。

一般情况在COCOPersons验证集上,联合RoI-Align和骨架特性的最佳性能到达了0.648的AP值。如果只依赖于其中一个输入(边界框或关键点),联合Affine-Align和骨架特性的计谋比RoI-Align计谋表现更好。

有无骨架特性的比较(With/Without Skeleton Features)

实验目的探究人工骨架特性对差别对齐计谋的影响。

结果骨架特性对于差别的对齐计谋都是有益的,因为它们可以为网络提供更多的信息,并引导网络关注特定的个体,尤其是在RoI中有多个人时。


SegModule的感受野(SegModule)

实验目的探究SegModule的感受野对系统性能的影响。

结果通过堆叠差别数目的残差单位来实现差别的感觉野。实验表明,具有10个残差单位的SegModule可以提供约50像素的感受野,这对于64×64的对齐大小是足够的。更深的架构几乎没有带来额外的好处。


结论

框架创新论文提出了一种新颖的基于人体姿态的人体实例分割框架,该框架不依赖于传统的目标检测方法,而是直接利用人体姿态信息举行实例分割。

性能上风与现有基于检测的实例分割框架相比,新框架在一般场景下表现更优,特别是在处置惩罚遮挡情况下的人体实例分割题目时,显现了显著的性能提拔。

Affine-Align操作通过引入Affine-Align操作,一种基于人体姿态的区域选择计谋,代替了传统的基于边界框的对齐方法,如RoI-Align,实验结果证明白其在处置惩罚遮挡和一般情况时的有效性。

骨架特性融合明白地将人体姿态骨架特性与图像特性联合,不仅进步了分割的准确性,还增强了网络区分重叠实例的本领,尤其在处置惩罚遮挡情况时更为有效。

OCHuman数据集引入了OCHuman数据集,这是一个专注于严峻遮挡人体的新基准,为研究遮挡题目提供了挑战性的测试平台,夸大了遮挡题目的紧张性,并推动了算法在实际生存场景中的实用性和鲁棒性。


硬性的标准实在限制不了无限可能的我们,所以啊!少年们加油吧!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

三尺非寒

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表