论文阅读-VisualPseudoLiDAR-2019-CVPR

2019年7月14号 | 阅读：次

论文

《Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving》(2019CVPR, Cornell University)

Open Source

Code

Motivation

在三维目标检测领域，相比于基于激光雷达的检测方法，基于单目或者双目相机的算法的准确率非常低，目前KITTI上的结果：仅使用图像的算法最高精度10%，基于激光雷达的最高精度66%，基于图像+激光雷达的最高精度73%，在以前人们认为这一问题的原因是基于图像得到的深度数据不够准确；
在三维目标检测的应用中（如无人驾驶领域），目前主要依靠激光雷达数据，激光雷达较为昂贵，而且这些应用中应该使用额外的传感器数据来保持系统的鲁棒性，图像数据就是较为理想的候选传感器数据。

Ps：CVPR2019目标检测相关论文共43篇

Contribution

解释了基于双目图像和激光雷达数据的三维目标检测算法之间精度差异的主要原因：不是双目图像方法的精度问题，二是双目图像中深度数据的表示方法；
提出了一个新的用于基于双目图像的三维目标检测算法的深度表示方法：类似于激光雷达中深度表示的方法，显著提高了算法精度；

Content

三维目标检测中的深度表示

在基于激光雷达的方法中：深度信息表示为三维点坐标中的一部分；在基于图像的方法中：深度数据被单独作为RGB之外的一个额外通道，如在论文《Multi-level fusion based 3d object detection from monocular images》（2018CVPR）中。

论文中的pseudo-LiDAR深度表示方法

即参考激光雷达方法中的表示方式，构造类似的点云数据，具体操作如下：

双目相机得到的深度数据+图像上该像素点的uv坐标->基于图像坐标系的三维点云数据；
由于激光雷达得到的点云是有扫描范围限制的，丢弃第一步得到的三维点云中超出一定范围的点（如垂直方向上高出激光雷达设备1m的点云）；
激光雷达数据中还包含表示反射强度的值（intensities，0~1），在由图像获取的点云中全部表示为1。

算法框架

主要步骤：

获取图像深度信息，使用PSMNet网络（《Pyramid stereo matching network》, CVPR2018）；
将深度信息+像素uv坐标转换成激光雷达方法中的三维点云数据（多视几何方法，重投影）；
使用两种方法来进行三维目标检测：
- 基于激光雷达的三维目标检测方法处理点云数据，使用Frustum PointNet（《Frustum pointnets for 3d object detection from rgb-d data》, CVPR2018, Code)。
- 在俯视图视角下将点云数据重新转换为2D图像数据，同时其剩下一维（深度）数据作为与图像数据对应的额外一维数据，使用AVOD算法处理（《Joint 3d proposal generation and object detection from view aggregation》, 2018IROS, Code）。

AVOD: 输入RGB图像以及激光点云数据，利用FPN(Feature Pyramid Networks)网络得到二者全分辨率的feature map，然后通过crop&resize提取两个feature map对应的feature crop并融合，最后挑选出3D proposal以实现3D物体检测。整个过程是two-stage detection，可以理解为MV3D的加强版，网络结构：