MV3D网络布局

打印 上一主题 下一主题

主题 984|帖子 984|积分 2952

Multi-View 3D Object Detection Network for Autonomous Driving
paper:https://arxiv.org/abs/1611.07759
github:https://github.com/bostondiditeam/MV3D.git
简介

LIDAR 传感器的上风在于深度信息,摄像头的上风在于语义信息,MV3D提出一种融合 RGB 和 Point Cloud
的3D目的检测框架。 同时,和以往基于voxel的方法不同,它只用了点云的俯视图和前视图,这样既能减少盘算量,又不至于丧失过多的信息。随后天生3D候选地区,把特性和候选地区融合后输出终极的目的检测框。
网络框架


MV3D架构由两部门构成:3D候选网络 + 融合网络。


  • 3D候选网络:利用点云的鸟瞰图表现来天生3D候选框。3D目的候选的好处是可以将其投影到3D空间中的任何视图。
  • 多视图融合网络:通过将3D目的候选从多个视图投影到特性图来提取地区特性。计划了一种深度融合方法,以实现来自不同视图的中间层的交互。融合的特性用于类别分类和定向的3D框回归。
网络实现时,骨干网络建立在16层VGG网络上,并进行了以下修改:


  • 为了处理小目的,在将最后一个卷积特性图送入3D Proposal网络之前,插入一个2x双线性上采样层。同样, 在BV/FV/RGB分支的ROI池化层之前插入一个4x/4x/2x上采样层。
  • 删除了原始VGG网络中的第4个池化操纵,因此网络的卷积部门进行了8倍下采样。
  • 在多视图融合网络中,除了原始的fc6和fc7层之外,还添加了一个额外的全连接层fc8。
3D点云表征


1)点云俯视图
俯视图由高度、强度、密度构成。


  • 高度特性图:将点云投影到分辨率为0.1的二维网格中,将每个网格中的所有点高度的最大值记作高度特性。为了对更详细的高度信息进行编码,将点云均匀分为M个切片。为每个切片盘算一个高度图,因此得到M个高度图。
  • 强度特性图:将点云投影到分辨率为0.1的二维网格中,找到每个网格中具有最大高度的点的反射率值,构成1个强度图。
  • 密度特性图:点云密度表现每个网格中点的数量,并利用以下公式规范化特性,其中N为栅格中点个数,进而构成1个密度图。

那么点云俯视图的维度为(M+2, W, H)。
2)点云前视图
前视图表现为俯视图表现提供增补信息,利用三通道特性(高度,隔断和强度)对前视图进行编码。
考虑到直接将点云的前视图映射到图像平面,会非常希奇。因此作者将三维点 (x,y,z) 映射到一个柱平面 (r,c) 上。盘算公式如下:

其中, Δθ 和 Δϕ 分别为激光束程度和竖直的分辨率。
3D候选网络

在俯视图进行候选地区盘算,为啥要用俯视图呢?缘故原由有三:
1)物体投射到俯视图时,保持了物体的物理尺寸,从而具有较小的尺寸方差,这在前视图/图像平面的环境下不具备的;
2)在俯视图中,物体占据不同的空间,从而避免遮挡问题;
3)在道路场景中,由于目的通常位于地面平面上,并在垂直位置的方差较小,可以为得到准确的3Dbounding box提供精良基础;

离散化分辨率为0.1m,鸟瞰图中的目的仅占据5-40像素。为了跟好的检测小目的,在卷积网络的最后一个卷积层之后,利用2倍双线性上采样,提升分辨率。
融合网络

1)多视图ROIpooling
由于来自不同视图/模式的特性通常具有不同的分辨率,因此对每个视图采用ROI池化以得到相同长度的
特性向量。

对于给定天生的3D目的候选,将它们投影到三个视图,即鸟瞰(BV),正视图(FV)和像平面 (RGB)。

其中,                                             T                                       3                               D                               −                               >                               v                                                 T_{3D->v}                  T3D−>v​代表雷达坐标系到bev、fv、图像平面坐标系的变换矩阵。
给定来自每个视图前端网络的输入特性图 x,我们通过 ROI 池化得到固定长度的特性 fv:

2)深度融合
为了结合来自不同特性的信息,从前的工作通常利用早期融合或晚期融合。MV3D采用了深度融合方法, 将多视图特性分层融合。

3)带方向的3D box回归
回归3D box的8个角点,参数维度24-D:
t = (∆x0, · · · , ∆x7, ∆y0, · · · , ∆y7, ∆z0, · · · , ∆z7)
4)网络正则化:drop-path + 辅助丧失:


  • drop-path:随机选择以50%的概率执行全局drop-path或局部drop-path。
  • 辅助丧失:


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

小秦哥

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表