图3:所接纳注释方法的可视化。黄点代表出发点,它指的是:(a)平面的左上角,(b)扇形棒球场的中心,(c)大型车辆的左上角。(d)是水平矩形注释的失败环境,与(c)相比,这带来了高重叠。
用于注释定向目标的一个选项是在一些文本检测基准[37]中接纳的基于 θ θ θ的定向边界框,即 ( x c , y c , w , h , θ ) (x_c, y_c, w, h, θ) (xc,yc,w,h,θ),此中 θ θ θ表现与标准边界框的水平方向的角度。该方法的一个缺陷是不能紧凑地封装不同部分之间变形较大的定向目标。思量到航拍图像中复杂的场景和目标的各种方位,我们需要摒弃这种方法,选择一种更加灵活易懂的方式。替代方案是恣意四边形边界框,其可以表现为 { ( x i , y i ) , i = 1 , 2 , 3 , 4 } \{(x_i, y_i), i = 1, 2, 3, 4\} {(xi,yi),i=1,2,3,4},此中 ( x i , y i ) (x_i, y_i) (xi,yi)表现定向边界框的顶点在图像中的位置。顶点按顺时针次序分列。这种方式在面向文本检测基准中被广泛接纳[11]。我们从这些研究中罗致灵感,利用恣意四边形检测框来注释目标。
为了进行更具体的注释,如图3所示,我们强调第一个点 ( x 1 , y 1 ) (x_1, y_1) (x1,y1)的重要性,它通常意味着目标的“头部”。对于直升机、大型车辆、小型车辆、港口、棒球场、船舶和飞机,我们仔细表现它们的第一点,以丰富潜在的用途。而对于足球场、游泳池、桥梁、地面田径场、篮球场和网球场,没有视觉线索来决定第一个点,因此我们选择左上角点作为出发点。
图4显示了我们数据集中带注释的patches(不是整个原始图像)的一些样本。
DOTA中的图像非常大,无法直接发送到基于CNN的检测器。因此,我们从原始图像中裁剪一系列1024 × 1024的补丁,步幅设置为512。请留意,在裁剪过程中,一些完备的目标大概会被切割成两部分。为了方便起见,我们将原始目标的面积表现为 A o A_o Ao,将分割部分 P i P_i Pi的面积表现为 a i , ( i = 1 , 2 ) a_i, (i = 1, 2) ai,(i=1,2)。然后我们计算原始目标地区上的部分地区, U i = a i A o U_i = \frac{a_i}{A_o} Ui=Aoai。最后,我们将 U i < 0.7 U_i < 0.7 Ui<0.7的部分 P i P_i Pi标记为困难,对于另一个,我们保持其与原始注释相同。对于新生成部分的顶点,我们需要确保它们可以用拟合方法被描述为一个顺时针方向有4个顶点的定向检测框。
在测试阶段,我们首先发送裁剪后的图像块以得到临时结果,然后将结果组合在一起以规复原始图像上的检测结果。最后,我们基于预测的类别对这些结果利用非最大克制(NMS)。我们将HBB实行的NMS阈值保持为0.3,定向实行的NMS阈值保持为0.1。通过这种方式,我们间接地在DOTA上练习和测试基于CNN的模子。
对于评估指标,我们接纳与PASCAL VOC相同的mAP计算。
5.3 具有水平边界框的基线
OBB的预测是困难的,因为现有技术的检测方法不是为定向目标设计的。因此,我们选择Faster R-CNN作为其精确性和效率的根本框架,然后对其进行修改以预测定向检测框。
由RPN(地区建议网络)生成的ROI(感爱好地区)是矩形,其可以被写成 R = ( x m i n , y m i n , x m a x , y m a x ) R = (x_{min}, y_{min}, x_{max}, y_{max}) R=(xmin,ymin,xmax,ymax),对于更具体的解释, R = { ( x i , y i ) , i = 1 , 2 , 3 , 4 } R=\{(x_i, y_i), i = 1, 2, 3, 4\} R={(xi,yi),i=1,2,3,4},此中 x 1 = x 4 = x m i n x_1 = x_4 = x_{min} x1=x4=xmin, x 2 = x 3 = x m a x x_2=x_3=x_{max} x2=x3=xmax, y 1 = y 2 = y m i n y_1=y_2=y_{min} y1=y2=ymin, y 3 = y 4 = y m a x y_3=y_4=y_{max} y3=y4=ymax。在R-CNN过程中,每个RoI被附加到写为 G = { ( g x i , g y i ) , i = 1 , 2 , 3 , 4 } G = \{(g_{xi}, g_{y_i}), i = 1, 2, 3, 4\} G={(gxi,gyi),i=1,2,3,4}的ground truth的定向边界框。然后R-CNN的输出目标 T = { ( t x i , t y i ) , i = 1 , 2 , 3 , 4 } T = \{(t_{xi}, t_{y_i}), i = 1, 2, 3, 4\} T={(txi,tyi),i=1,2,3,4}计算为, t x i = ( g x i − x i ) / w t_{xi} = (g_{xi} − x_i)/w txi=(gxi−xi)/w, t y i = ( g y i − y i ) / h t_{y_i} = (g_{y_i} − y_i)/h tyi=(gyi−yi)/h,此中 w = x m a x − x m i n w = x_{max} − x_{min} w=xmax−xmin, h = y m a x − y m i n h = y_{max} − y_{min} h=ymax−ymin,类似于[13]。
其他设置和超参数保持与Faster R-CNN[27]中描述的相同。数值结果如表5所示。与我们实施的对于OBB的Faster R-CNN,我们用OBB的GT评估了在HBB上练习的YOLOv2、R-FCN、SSD和Faster R-CNN。如表5所示,在HBB上练习的那些方法的结果远低于在OBB上练习的Faster R-CNN,这表明对于航空场景中的定向目标检测,这些方法应该进行相应的调解。