您好, 访客   登录/注册

基于深度学习的3D目标检测算法研究

来源:用户上传      作者:康晴,汤超,李婧萱,崔振

  摘 要: 虽然Voxel R-CNN对于3D点云目标检测具有快速性以及对车辆目标检测有较高精度,但对行人以及骑车人目标存在检测精度低的问题。介绍了一种多尺度改进的体素ROI池化方法,并在BEV特征提取网络中引入通道注意力机制,进一步提高算法对于小目标检测的精度。实验结果表明,提出的算法不仅保持了对于车辆检测的较高精度,并且在行人以及骑车人目标检测场景中拥有更高的检测精度。
  关键词: 3D点云目标检测; 通道注意力; 多尺度; Voxel R-CNN
  中图分类号:TP391 文献标识码:A 文章编号:1006-8228(2022)06-44-05
  Research on 3D object detection algorithm based on deep learning
  Kang Qing1, Tang Chao2, Li Jingxuan1, Cui Zhen2
  (1. School of Automation, Nanjing University of Science and Technology, Nanjing, Jiangsu 210094, China;
  2. School of Computer Science and Engineering,Nanjing University of Science and Technology)
  Abstract: Although Voxel R-CNN has high speed for 3D point cloud object detection and high precision for vehicle detection, it still has the problem of low accuracy in pedestrian and cyclist detection. In this paper, a multi-scale improved voxel ROI pooling method is presented, and channel attention mechanism is introduced to the BEV feature extraction network to promote the accuracy for small object detection. Experiments show that the proposed algorithm not only maintains the high accuracy of vehicle detection, but also has higher accuracy in pedestrian and cyclist detection.
  Key words: 3D point cloud object detection; channel attention; multi-scale; Voxel R-CNN
  0 引言
  随着自动驾驶,机器人视觉,虚拟现实增强技术等领域研究的发展,3D点云目标检测作为其中的关键技术而受到广泛的关注,应用前景十分广阔。3D点云目标检测作为自动驾驶的关键技术已经取得了长足的进步,然而由于点云的稀疏性、无序性等特点,3D点云目标检测还存在着诸多难点,目前利用点云进行深度学习的方法主要基于体素、基于点、基于视图三种。
  基于体素的方法将不规则的点云输入划分为规则网格,便于应用卷积神经网络进行特征提取。VoxelNet[1]通过体素特征编码(Voxel Feature Encoding,VFE)层,将点状特征与局部聚集的特征相结合,提高了基于体素的目标检测精度。基于点云的稀疏性,SECOND[2](Sparsely embedded convolutional detection)通过引入新的角度损失回归方法来提高定位精度,并通过稀疏卷积使处理速度得以提升。PointPillars[3]通过2D卷积网络对点云生成的伪图像进行处理,从而大大提高了处理速度。基于点的方法使用原始点云数据作为输入,PointRCNN[4]基于原始的点云数据,以自下而上的方案生成三维区域候选框。PV-RCNN[5]通过点与体素方法的结合,实现高效且感受野灵活的三维目标检测。基于视图的方法则通过点云在多角度的投影形成二维图像,借助成熟的二维图像处理技术来解决直接输入原始点云难以进行处理的问题。
  目前对于原始点云的处理方法中,基于点的方法往往能够获得较高的检测精度,但是速度相对较慢。基于体素的方法能够获得更快的检测速度,但是在精度上有所下降。为解决点云无序性处理问题的同时获得较高的检测速度的同时满足较高精度的要求,我们采用基于体素的Voxel R-CNN算法[6]M行3D目标检测。并且为更好地提升Voxel R-CNN在小目标尤其是行人和骑车人目标的检测精度,本文基于原有模型进行改进,提高了模型性能,并取得了较好的检测结果。
  1 构建Voxel R-CNN模型
  本文采用Voxel R-CNN模型,直接对原始点云进行基于体素的处理并实现3D点云的目标检测。Voxel R-CNN模型基本框架如图1所示。
  模型总共由四个部分组成:3D特征主干网络、2D主干网络及RPN模块、体素ROI池化、检测头。该模型基于体素处理点云的方法,通过稀疏卷积进行3D特征的提取,通过投影的BEV特征图进行2D特征提取以及产生3D候选区域。并由体素ROI池化生成3D ROI特征进行3D候选框的回归,从而估计目标点云的3D检测框。

nlc202206221416



转载注明来源:https://www.xzbu.com/8/view-15434272.htm

相关文章