【遥感目标检测】【数据集】DOTA:用于航空图像中目标检测的大规模数据集 ...

打印 上一主题 下一主题

主题 840|帖子 840|积分 2520

DOTA:A large-scale dataset for object detection in aerial images
DOTA:用于航空图像中目标检测的大规模数据集
CVPR 2018

论文地址
数据集地址
0.论文摘要

目标检测是计算机视觉中一个重要而富有挑衅性的问题。尽管过去十年见证了自然场景中目标检测的庞大希望,但这种成功在航空图像中希望缓慢,这不但是因为地球表面上目标实例的规模、方向和形状的巨大变化,还因为航空场景中目标的注释良好的数据集的稀缺。为了推进地球视觉(也称为地球观测和遥感)中的目标检测研究,我们引入了一个用于航空图像中目标检测(DOTA)的大规模数据集。为此,我们从不同的传感器宁静台收集了2806幅航拍图像。每个图像的巨细约为4000 × 4000像素,而且包含出现各种比例、方向和形状的目标。然后,航空图像判读专家利用15个常见的目标类别对这些DOTA图像进行注释。完全注释的DOTA图像包含188,282个实例,每个实例都由恣意(8 d.o.f.)四边形标记。为了创建地球视觉中目标检测的基线,我们在DOTA上评估了最先辈的目标检测算法。实行表明,DOTA很好地代表了真实的地球视觉应用,具有相称的挑衅性。
1.研究背景

地球视觉中的目标检测是指在地球表面定位感爱好的目标(例如,车辆、飞机)并预测它们的类别。与常规目标检测数据集(此中目标通常由于重力而向上定向)相反,空中图像中的目标实例通常以恣意定向出现,如图1所示,这取决于地球视觉平台的视角。

图1:取自DOTA的一个例子。(a)DOTA中的典范图像,由跨多个类别的许多实例组成。(b)说明实例方向和巨细的变化。(c)、(d)分别说明稀疏实例和拥挤实例。在这里,我们展示了DOTA中十五个大概类别中的四个。(b)、(c)、(d)中显示的示例是从源图像(a)裁剪的。直方图(e)、(f)显示了DOTA中实例相对于巨细和方向的分布。
利用计算机视觉的最新希望并思量到地球视觉应用的高需求,人们对航空图像中的目标检测进行了广泛的研究[24, 15, 18, 3, 20, 39, 19, 32, 31, 22]。这些方法中的大多数[39,19,32,3]试图将为自然场景开发的目标检测算法转移到航空图像域。最近,在基于深度学习的目标检测算法的成功推动下,地球视觉研究人员已经寻求基于在大规模图像数据集(例如,ImageNet[6]和MSCOCO[14])上预练习的微调网络的方法,用于空中范畴的检测,例如拜见[19,30,2,3]。
固然这种基于微调的方法是探索的合理途径,但是诸如图1的图像揭示了航空图像中的目标检测使命与常规目标检测使命不同:
-航空图像中目标实例的比例变化是巨大的。这不但是因为传感器的空间分辨率,还因为同一目标类别内的尺寸变化。
-许多小目标实例拥挤在航空图像中,例如,港口中的船舶和停车场中的车辆,如图1所示。此外,航空图像中的实例频率是不平衡的,例如,一些小尺寸(例如1k × 1k)图像包含1900个实例,而一些大尺寸图像(例如4k × 4k)大概仅包含少数小实例。
-航空图像中的目标常常以恣意方向出现。也有一些长宽比非常大的实例,例如桥。
除了这些困难之外,地球视觉中目标检测的研究还受到数据集偏差问题的挑衅[29],即跨数据集的泛化程度通常较低。为了减轻这种偏差,应该对数据集进行注释以反映现实世界应用程序的需求。
因此,从自然图像中学习的目标检测器不适用于航空图像也就不敷为奇了。然而,现有的用于航空图像中目标检测的注释数据集,如UCAS-AOD[41]和NWPU VHR-10[2],倾向于利用理想条件下的图像(背景清晰且没有密集分布的实例),这不能充实反映问题的复杂性。
为了推进地球视觉中目标检测的研究,本文先容了一种用于航空图像中目标检测的大规模数据集(DOTA)。我们通过众包从不同的传感器宁静台收集了2806幅航拍图像。每个图像的巨细约为4k × 4k像素,包含不同比例、方向和形状的目标。这些DOTA图像由航空图像判读专家对15个常见目标类别进行了注释。完全注释的DOTA数据集包含188,282个实例,每个实例都由恣意四边形标记,而不是通常用于自然场景中目标注释的轴对齐边界框。这项工作的主要贡献是:
-据我们所知,DOTA是地球视觉中最大的带注释的目标数据集,具有多种类别。它可用于开发和评估目标航空图像中的探测器。我们将继续更新DOTA,以扩大规模和范围,并反映不停变化的现实世界条件。
-我们还在DOTA上对最先辈的目标检测算法进行基准测试,这可以作为未来算法开发的基线。
除了推进地球视觉中的目标检测研究,DOTA还将向计算机视觉中的传统目标检测提出有趣的算法问题。
2.动机

近年来,数据集在数据驱动的研究中发挥了重要作用[36, 6, 14, 40, 38, 33]。像MSCOCO[14]这样的大型数据集有助于促进目标检测和图像字幕研究。当涉及到分类使命和场景识别使命时,ImageNet[6]和Places[40]也是如此。
然而,在空中目标检测中,缺少了一个在图像数量和具体注释方面都类似于MSCOCO和ImageNet的数据集,这成为地球视觉研究的主要障碍之一,特别是对于开发基于深度学习的算法。空中目标检测对于远程目标跟踪和无人驾驶有着极大的资助。因此,尽大概靠近真实世界应用的大规模和具有挑衅性的空中目标检测基准对于促进该范畴的研究至关重要。
我们以为,一个好的航空图像数据集应该具备四个属性,即1)大量的图像,2)每个类别的许多实例,3)精确定向的目标注释,以及4)许多不同类别的目标,这使其靠近现实世界的应用。然而,现有的航空图像数据集[41, 18, 16, 25]有几个共同的缺点:数据和类别不敷,缺乏具体的注释,以及图像分辨率低。此外,它们的复杂性不敷以被以为是现实世界的反映。
像TAS[9]、VEDAI[25]、COWC[21]和DLR 3K慕尼黑车辆[16]这样的数据集只关注车辆。UCAS-AOD[41]包含车辆和飞机,而HRSC2016[18]仅包含船舶,尽管给出了细粒度的类别信息。全部这些数据集的类数量都很少,这限制了它们对复杂场景的适用性。相比之下,NWPU VHR-10[2]由十个不同类别的目标组成,而其实例总数仅为3000左右。表1中显示了这些现有数据集的具体比较。与这些航空数据集相比,正如我们将在第4节中看到的,DOTA因其巨大的目标实例、恣意但分布良好的方向、各种类别和复杂的空中场景而具有挑衅性。而且DOTA中的场景与自然场景是重合的,以是DOTA对现实世界的应用更有资助。

表1:航空图像中DOTA和目标检测数据集之间的比较。BB是边界框的缩写。单点是指仅提供实例中心坐标的注释。不思量细粒度类别。例如,DOTA由15个不同的类别组成,但只有14个主要类别,因为小型车辆和大型车辆都是车辆的子类别。
当涉及到一样平常目标数据集时,ImageNet和MSCOCO由于图像数量多、类别多和注释具体而受到青睐。ImageNet在全部目标检测数据集中拥有最多数量的图像。然而,每张图像的均匀实例数远远小于MSCOCO和我们的DOTA,加上其干净的背景和经心选择的场景的限制。DOTA中的图像包含了数量极其庞大的目标实例,有的甚至超过了1000个实例。PASCAL VOC数据集[7]在每个图像和场景的实例方面类似于ImageNet,但图像数量不敷使其不适合处理大多数检测需求。我们的DOTA在实例数量和场景类型方面类似于MSCOCO,但DOTA的类别没有MSCOCO多,因为在航拍图像中可以清晰看到的目标非常有限。
此外,DOTA在上述大型通用目标检测基准中的独特之处在于,DOTA中的目标是用得当定向的边界框(简称OBB)进行注释的。OBB可以更好地包围目标,并将拥挤的目标彼此区分开来。在第3节中进一步描述了用OBB注释航空图像中的目标的长处。我们在DOTA、PASCAL VOC、ImageNet和MSCOCO之间进行了比较,以显示表2中的差异。

表2:DOTA和其他通用目标检测数据集之间的比较。BBox是边界框的缩写,Avg. BBox quantity表现每个图像的均匀边界框数量。请留意,就每个图像的均匀实例数而言,DOTA大大超过了其他数据集。
3.DOTA的注释

3.1.图片集

在航空图像中,所用传感器的分辨率和种类是产生数据集偏差的因素[5]。为了消除偏差,我们数据集中的图像是从多个传感器宁静台(如谷歌地球)以多种分辨率收集的。为了增加数据的多样性,我们收集了由航空图像判读专家经心选择的在多个都会拍摄的图像。我们记录每张图像的位置和拍摄时间的精确地理坐标,以确保没有重复的图像。
3.2.类别选择

在我们的DOTA数据集中选择并注释了15个类别,包括飞机、船舶、储罐、棒球场、网球场、游泳池、地面跑道、港口、桥梁、大型车辆、小型车辆、直升机、环形交织路口、足球场和篮球场。
类别是由航空图像判读专家根据一类目标是否常见及其对现实世界应用的价值来选择的。前10个类别在现有数据集中是常见的,例如[16, 2, 41, 21],我们保存了它们,除了我们进一步将车辆分为大型和小型车辆,因为这两个子类别在航空图像中有明显的差异。其他的主要是从现实应用中的数值中加入的。例如,思量到移动目标在航空图像中非常重要,我们选择直升机。选择环岛是因为它在道路分析中起着重要的作用。
是否思量“东西”类别值得讨论。如SUN数据集[34]所示,“物品”类别(如港口、机场、停车场)通常没有明白的定义。然而,它们提供的上下文信息大概有助于检测。我们只接纳harbor类别,因为它的边界相对容易定义,而且有丰富的harbor实例.在我们的图像泉源中。足球场是DOTA中的另一个新类别。
在图2中,我们将DOTA的类别与NWPU VHR-10[2]进行了比较,后者在从前的空中目标检测数据集中具有最多的类别。请留意,DOTA不但在类别数量上超过了NWPU VHR-10,而且在每个类别的实例数量上也超过了。

图2:DOTA和NWPU VHR-10在实例类别和响应数量方面的比较。
3.3.注释方法

我们思量不同的注释方式。在计算机视觉中,许多视觉概念,如地区描述、目标、属性和关系,都用边界框进行注释,如[12]所示。边界框的常见描述是                                   (                                   x                            c                                  ,                                   y                            c                                  ,                         w                         ,                         h                         )                              (x_c, y_c, w, h)                  (xc​,yc​,w,h),此中                                   (                                   x                            c                                  ,                                   y                            c                                  )                              (x_c, y_c)                  (xc​,yc​)是中心位置,                                   w                         ,                         h                              w, h                  w,h分别是边界框的宽度和高度。
没有许多方向的目标可以用这种方法充实注释。然而,以这种方式标记的边界框不能精确或紧凑地勾勒出定向实例,例如航拍图像中的文本和目标。在如图3©和(d)所示的非常但现实上常见的条件下,两个边界框之间的重叠如此之大,以至于现有技术的目标检测方法无法区分它们。为了补救这一点,我们需要找到一种适合面向目标的注释方法。

图3:所接纳注释方法的可视化。黄点代表出发点,它指的是:(a)平面的左上角,(b)扇形棒球场的中心,(c)大型车辆的左上角。(d)是水平矩形注释的失败环境,与(c)相比,这带来了高重叠。
用于注释定向目标的一个选项是在一些文本检测基准[37]中接纳的基于                                   θ                              θ                  θ的定向边界框,即                                   (                                   x                            c                                  ,                                   y                            c                                  ,                         w                         ,                         h                         ,                         θ                         )                              (x_c, y_c, w, h, θ)                  (xc​,yc​,w,h,θ),此中                                   θ                              θ                  θ表现与标准边界框的水平方向的角度。该方法的一个缺陷是不能紧凑地封装不同部分之间变形较大的定向目标。思量到航拍图像中复杂的场景和目标的各种方位,我们需要摒弃这种方法,选择一种更加灵活易懂的方式。替代方案是恣意四边形边界框,其可以表现为                                   {                         (                                   x                            i                                  ,                                   y                            i                                  )                         ,                         i                         =                         1                         ,                         2                         ,                         3                         ,                         4                         }                              \{(x_i, y_i), i = 1, 2, 3, 4\}                  {(xi​,yi​),i=1,2,3,4},此中                                   (                                   x                            i                                  ,                                   y                            i                                  )                              (x_i, y_i)                  (xi​,yi​)表现定向边界框的顶点在图像中的位置。顶点按顺时针次序分列。这种方式在面向文本检测基准中被广泛接纳[11]。我们从这些研究中罗致灵感,利用恣意四边形检测框来注释目标。
为了进行更具体的注释,如图3所示,我们强调第一个点                                   (                                   x                            1                                  ,                                   y                            1                                  )                              (x_1, y_1)                  (x1​,y1​)的重要性,它通常意味着目标的“头部”。对于直升机、大型车辆、小型车辆、港口、棒球场、船舶和飞机,我们仔细表现它们的第一点,以丰富潜在的用途。而对于足球场、游泳池、桥梁、地面田径场、篮球场和网球场,没有视觉线索来决定第一个点,因此我们选择左上角点作为出发点。
图4显示了我们数据集中带注释的patches(不是整个原始图像)的一些样本。

图4:DOTA中带注释的图像示例。除了大型车辆的六个样品外,我们每个类别展示了三个样品。
值得留意的是,Papadopoulos等人[23]探索了一种替代的注释方法,并验证了其效率和鲁棒性。我们假设,通过更经心设计的注释方法,注释将更加精确和结实,而且替代注释协议将促进更有效的众包图像注释。
3.4.数据集拆分

为了保证练习数据和测试数据分布近似匹配,我们随机选择一半的原始图像作为练习集,1/6作为验证集,1/3作为测试集。我们将为练习集和验证集公开提供全部带有标签的原始图像,但不为测试集提供。为了测试,我们现在正在构建一个评估服务器。
4.DOTA的属性

4.1.图像巨细

与自然图像数据集中的图像相比,航空图像通常非常大。我们的数据集中图像的原始巨细从大约800 × 800到大约4k × 4k,而常规数据集中(例如PASCALVOC和MSCOCO)的大多数图像不超过1k × 1k。我们对原始的完备图像进行注释,而不将其分割成碎片,以制止单个实例被分割成不同碎片的环境。
4.2.实例的各种方向

如图1(f)所示,我们的数据集在不同方向的实例中实现了良好的平衡,这对于学习鲁棒检测器非常有资助。此外,我们的数据集更靠近真实场景,因为在现实世界中看到各种方向的目标是很常见的。
4.3.空间分辨率信息

我们还提供了数据集中每个图像的空间分辨率,这意味着实例的现实巨细,并在航空目标检测中起着重要作用。空间分辨率对于检测使命的重要性有两个方面。首先,它允许模子对同一类别的各种目标更具顺应性和鲁棒性。众所周知,从远处看,目标会显得更小。同一目标巨细不同,会困扰模子,伤害分类。然而,模子可以更多地关注提供分辨率信息的形状,而不是目标的巨细。第二,它更适合细粒度分类。例如,区分小船和大型军舰会很简单。
空间分辨率也可用于过滤我们数据集中的错误标记非常值,因为大多数类别的现实巨细的类内变化是有限的。在一个小的空间分辨率范围内,通过选择尺寸与同一类别的目标相差较大的目标,可以找到离群值。
4.4.类别的各种像素巨细

按照[35]中的约定,我们将水平边界框的高度(我们简称为像素巨细)称为实例巨细的度量。我们根据水平边界框的高度将数据集中的全部实例分为三个部分:小的用于10到50的范围,中的用于50到300的范围,大的用于300以上的范围。表3示出了不同数据集中的三个实例分割的百分比。很明显,PASCAL VOC数据集、NWPU VHR-10数据集和DLR 3K慕尼黑车辆数据集分别由中间实例、中型实例和小型实例主导。然而,我们在小型实例和中型实例之间实现了良好的平衡,这更类似于真实世界的场景,因此有助于在现实应用中更好地捕获不同巨细的目标。

表3:航空图像和自然图像中一些数据集的实例巨细分布比较。
值得留意的是,像素巨细在不同的类别中有所不同。例如,一辆车可以小到30,然而,一座桥可以大到1200,这是一辆车的40倍。来自不同类别的实例之间的巨大差异使得检测使命更具挑衅性,因为模子必须足够灵活,以处理极其微小和巨大的目标。
4.5.实例的各种纵横比

纵横比(AR)是基于锚的模子的一个重要因素,如Faster RCNN [27]和YOLOv2 [26]。我们计算了数据集中全部实例的两种AR,为更好的模子设计提供参考:1)最小外接水平矩形检测框的AR,2)原始四边形检测框的AR。图5示出了我们的数据集中的实例的这两种类型的纵横比分布。我们可以看到实例的纵横比变化很大。此外,在我们的数据集中有大量具有大纵横比的实例。

图5:DOTA中的实例统计。AR表现纵横比。(a)水平检测框的AR。(b)定向检测框的AR。(c)每个图像的注释实例数量的直方图。
4.6.图像的各种实例密度

航空图像包含数千个实例是很常见的,这与自然图像不同。例如,ImageNet[6]中的图像均匀包含2个类别和2个实例,而MSCOCO分别包含3.5个类别和7.7个实例。我们的数据集每张图像的实例要丰富得多,最多可达2000个。图5示出了我们的DOTA数据集中的实例数量。
在单个图像中有如此多的实例,不可制止地会看到实例密集的地区。对于COCO,实例不是一个接一个地注释的,因为遮挡使得很难区分一个实例和它的相邻实例。在这些环境下,实例组被标记为具有名为“人群”的属性的一个段。然而,对于航空图像来说,环境并非如此,因为由于从上面的视角,很少存在遮挡。因此,我们可以逐个注释密集地区中的全部实例。图4示出了密集添补实例的示例。在这些环境下检测目标对当前的检测方法提出了巨大的挑衅。
5.评估

我们评估了DOTA上最先辈的目标检测方法。对于水平目标检测,我们经心选择Faster R-CNN [27]、R-FCN [4]、YOLOv2 [26]和SSD[17]作为我们的基准测试算法,因为它们在一样平常目标检测上表现精彩。对于定向目标检测,我们修改了原始的Faster RCNN算法,使得它可以预测表现为                                   {                         (                                   x                            i                                  ,                                   y                            i                                  )                         ,                         i                         =                         1                         ,                         2                         ,                         3                         ,                         4                         }                              \{(x_i, y_i), i = 1, 2, 3, 4\}                  {(xi​,yi​),i=1,2,3,4}的精确定向的边界框。
请留意,主干网络分别是用于R-FCN和Faster R-CNN的ResNet-101[8]、用于SSD的InceptionV2[10]和用于YOLOv2的定制GoogLeNet[28]。
5.1.评估使命

为了评估DOTA上最先辈的基于深度学习的检测方法,我们提出了两个使命,即水平检测框检测(简称HBB)和定向检测框检测(简称OBB)。更具体地说,我们在两种不同的ground truth上评估这些方法,HBB或OBB,不管这些方法是怎样练习的。
5.2 评估原型

DOTA中的图像非常大,无法直接发送到基于CNN的检测器。因此,我们从原始图像中裁剪一系列1024 × 1024的补丁,步幅设置为512。请留意,在裁剪过程中,一些完备的目标大概会被切割成两部分。为了方便起见,我们将原始目标的面积表现为                                             A                            o                                       A_o                  Ao​,将分割部分                                             P                            i                                       P_i                  Pi​的面积表现为                                             a                            i                                  ,                         (                         i                         =                         1                         ,                         2                         )                              a_i, (i = 1, 2)                  ai​,(i=1,2)。然后我们计算原始目标地区上的部分地区,                                             U                            i                                  =                                              a                               i                                                 A                               o                                                 U_i = \frac{a_i}{A_o}                  Ui​=Ao​ai​​。最后,我们将                                             U                            i                                  <                         0.7                              U_i < 0.7                  Ui​<0.7的部分                                             P                            i                                       P_i                  Pi​标记为困难,对于另一个,我们保持其与原始注释相同。对于新生成部分的顶点,我们需要确保它们可以用拟合方法被描述为一个顺时针方向有4个顶点的定向检测框。
在测试阶段,我们首先发送裁剪后的图像块以得到临时结果,然后将结果组合在一起以规复原始图像上的检测结果。最后,我们基于预测的类别对这些结果利用非最大克制(NMS)。我们将HBB实行的NMS阈值保持为0.3,定向实行的NMS阈值保持为0.1。通过这种方式,我们间接地在DOTA上练习和测试基于CNN的模子。
对于评估指标,我们接纳与PASCAL VOC相同的mAP计算。
5.3 具有水平边界框的基线

HBB实行的标签是通过计算原始注释边界框上的轴对齐边界框来生成的。为了公平起见,我们保持全部实行的设置和超参数与相应论文中描述的相同[27,4,26,17]。
HBB预测的结果如表4所示。请留意,SSD的结果比其他型号略低。我们猜疑这应该归因于SSD数据增强策略中的随机裁剪操纵,这在一样平常目标检测中非常有用,而在非常小的练习实例的航空目标检测中会退化。结果进一步表明白航空物体和一样平常物体在实例巨细方面的巨大差异。

表4:用HBB地面实况评估的基线模子的数值结果(AP)。类别的简称定义为:BD-棒球场、GTF-地面跑道、SV-小型车辆、LV-大型车辆、TC-网球场、BC-篮球场、SC-储罐、SBF-足球场、RA-环岛、SP-游泳池和HC-Helicopter。FR-H表现在水平检测框上练习的Faster R-CNN[27]。
5.4.具有定向边界框的基线

OBB的预测是困难的,因为现有技术的检测方法不是为定向目标设计的。因此,我们选择Faster R-CNN作为其精确性和效率的根本框架,然后对其进行修改以预测定向检测框。
由RPN(地区建议网络)生成的ROI(感爱好地区)是矩形,其可以被写成                                   R                         =                         (                                   x                                       m                               i                               n                                            ,                                   y                                       m                               i                               n                                            ,                                   x                                       m                               a                               x                                            ,                                   y                                       m                               a                               x                                            )                              R = (x_{min}, y_{min}, x_{max}, y_{max})                  R=(xmin​,ymin​,xmax​,ymax​),对于更具体的解释,                                   R                         =                         {                         (                                   x                            i                                  ,                                   y                            i                                  )                         ,                         i                         =                         1                         ,                         2                         ,                         3                         ,                         4                         }                              R=\{(x_i, y_i), i = 1, 2, 3, 4\}                  R={(xi​,yi​),i=1,2,3,4},此中                                             x                            1                                  =                                   x                            4                                  =                                   x                                       m                               i                               n                                                 x_1 = x_4 = x_{min}                  x1​=x4​=xmin​,                                             x                            2                                  =                                   x                            3                                  =                                   x                                       m                               a                               x                                                 x_2=x_3=x_{max}                  x2​=x3​=xmax​,                                             y                            1                                  =                                   y                            2                                  =                                   y                                       m                               i                               n                                                 y_1=y_2=y_{min}                  y1​=y2​=ymin​,                                             y                            3                                  =                                   y                            4                                  =                                   y                                       m                               a                               x                                                 y_3=y_4=y_{max}                  y3​=y4​=ymax​。在R-CNN过程中,每个RoI被附加到写为                                   G                         =                         {                         (                                   g                                       x                               i                                            ,                                   g                                       y                               i                                            )                         ,                         i                         =                         1                         ,                         2                         ,                         3                         ,                         4                         }                              G = \{(g_{xi}, g_{y_i}), i = 1, 2, 3, 4\}                  G={(gxi​,gyi​​),i=1,2,3,4}的ground truth的定向边界框。然后R-CNN的输出目标                                   T                         =                         {                         (                                   t                                       x                               i                                            ,                                   t                                       y                               i                                            )                         ,                         i                         =                         1                         ,                         2                         ,                         3                         ,                         4                         }                              T = \{(t_{xi}, t_{y_i}), i = 1, 2, 3, 4\}                  T={(txi​,tyi​​),i=1,2,3,4}计算为,                                             t                                       x                               i                                            =                         (                                   g                                       x                               i                                            −                                   x                            i                                  )                         /                         w                              t_{xi} = (g_{xi} − x_i)/w                  txi​=(gxi​−xi​)/w,                                             t                                       y                               i                                            =                         (                                   g                                       y                               i                                            −                                   y                            i                                  )                         /                         h                              t_{y_i} = (g_{y_i} − y_i)/h                  tyi​​=(gyi​​−yi​)/h,此中                                   w                         =                                   x                                       m                               a                               x                                            −                                   x                                       m                               i                               n                                                 w = x_{max} − x_{min}                  w=xmax​−xmin​,                                   h                         =                                   y                                       m                               a                               x                                            −                                   y                                       m                               i                               n                                                 h = y_{max} − y_{min}                  h=ymax​−ymin​,类似于[13]。
其他设置和超参数保持与Faster R-CNN[27]中描述的相同。数值结果如表5所示。与我们实施的对于OBB的Faster R-CNN,我们用OBB的GT评估了在HBB上练习的YOLOv2、R-FCN、SSD和Faster R-CNN。如表5所示,在HBB上练习的那些方法的结果远低于在OBB上练习的Faster R-CNN,这表明对于航空场景中的定向目标检测,这些方法应该进行相应的调解。

表5:用OBB的GT评估的基线模子的数值结果(AP)。FR-O意味着在定向检测框上练习的Faster RCNN[27]。
5.5.实行分析

当分析表4中显示的结果时。小型车辆、大型车辆和船舶等类别的性能远不能令人满意,这归因于它们在航空图像中的尺寸小和密集位置。相比之下,大型和离散的物体,如飞机、游泳池和网球场,表现相称公平。
在图6中,我们比较了HBB和OBB的目标检测实行之间的结果。对于图6(a)和(b)所示的密集堆积和定向物体,HBB实行中物体的定位精度远低于OBB实行,而且许多结果通过后处理操纵被克制。因此,OBB回归是面向目标检测的精确方法,可以真正集成到现实应用中。在图6(c)中,以OBB风格注释的大纵横比目标(如港口、桥梁)对于当前检测器来说很难回归。但是在HBB风格中,这些目标通常具有正常的纵横比,因此,结果似乎相称好,如图6(d)所示。然而,在极其密集的场景中,例如在图6(e)和(f)中,HBB和OBB的结果都不令人满意,这意味着当前检测器的缺陷。

图6:利用练习有素的Faster R-CNN在DOTA上测试的可视化结果。顶部和底部分别说明白HBB和OBB在取向、大纵横比和密度环境下的结果。
6.跨数据集验证

跨数据集泛化[29]是对数据集泛化能力的评估。与其他空中物体检测数据集相比,我们选择UCAS-AOD数据集[41] 对其相对大量的数据进行跨数据集泛化。由于UCAS-AOD没有官方数据拆分,我们随机选择1110个进行练习,400个进行测试。我们选择YOLOv2作为下面描述的全部实行的测试检测器,并为全部标签选择HBB风格的注释。在UCAS-AOD中,输入图像巨细更改为960 × 544,大约是原始图像巨细,而其他设置保持不变。
结果显示在表6中。YOLOv2-A和YOLOv2-D模子的两个数据集的性能差异分别为35.8和15.6。这表明DOTA极大地覆盖了UCAS-AOD,此外另有更多UCAS-AOD没有的模式和属性。这两种模子在DOTA上的得分都很低,这反映出DOTA更具挑衅性。

表6:跨数据集泛化的结果。上图:在UCAS-AOD上评估的检测性能。下图:在DOTA上评估的检测性能。YOLOv2-A和YOLOv2-D分别用UCAS-AOD和DOTA练习。
7.结论

我们创建了一个用于航空图像中定向目标检测的大规模数据集,它比该范畴任何现有的数据集都大得多。与一样平常的目标检测基准相比,我们用定向检测框注释了大量分布良好的定向目标。我们假设这个数据集具有挑衅性,但类似于自然航空场景,更适合现实应用。我们还创建了航空图像中目标检测的基准,并通过修改主流检测算法来展示产生定向检测框的可行性。
在大图像中检测密集的小实例和具有恣意方向的极大实例将是特别有意义和具有挑衅性的。我们相信DOTA不但会推动地球视觉中目标检测算法的发展,也会对计算机视觉中的一样平常目标检测提出有趣的算法问题。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

小小小幸运

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表