您好, 访客   登录/注册

卷积神经网络在ADAS中的应用

来源:用户上传      作者:

  摘  要:针对原有卷积神经网络(Convolutional Neural Networks,CNN)算法耗时长,即时性差的缺点提出了一种应用在高级驾驶辅助系统(Advanced Driving Assistant System,ADAS)领域的网络,较诸原有的网络,其达到了较快的运行速度,适用于ADAS这样对FPS要求高的领域。同时使用YOLO算法得到目标在图像中的位置,从而得以实施避障、跟车、变道等后续操作。与Faster R-CNN和ResNet50结合的网络相比每秒帧数(Frames Per Second,FPS)提升89.36%。結果表明,该方法解决了原有网络检测耗时的缺点,具有一定的泛化能力。
  关键词:卷积神经网络  YOLO  ADAS  目标检测
  中图分类号:P618   文献标识码:A 文章编号:1672-3791(2020)01(c)-0004-04
  Abstract: A network in the field of Advanced Driving Assistant System (ADAS) has being put forward, aiming at the time-consuming of the original Convolutional Neural Networks algorithm and the poor realtime presents. Compared to the original network, it reach a faster speed, which is suitable for fields like ADAS to require higher quality of FPS. At the same time, YOLO algorithm is used to get the location of the target in the image, so as to implement subsequent operations such as obstacle avoidance, car following, lane change. Compared with the combined network of Faster R-CNN and ResNet 50, the Frames Per Second (FPS) increased by 89.36%. The result illustrates that this method solves the problem of time consuming and has the ability of generalization.
  Key Words: Convolutional Neural Networks; YOLO; ADAS; Target Detection
  美国早在20世纪80年代即已展开对ADAS领域的研究,并于1990年开发出Navlab-5[1],在2007年举办所举办的Urban Challenge[2]亦为ADAS领域里程碑式的大赛,该赛事完全模拟城市交通情况。欧洲于20世纪80年代所展开的普罗米修斯计划[3]同样汇聚了一批高校人才。国内的相关研究几乎与欧美国家同时开始,2013年之后我国相关产业发展迅速,包括广汽、比亚迪在内的一众汽车厂商均开始此类研究,甚至乐视、小米等科技公司亦在此列。由此可见,ADAS领域具有巨大的商业价值和研究价值。
  1  卷积神经网络简介
  卷积神经网络是一种前馈神经网络(CNN)[4],自2012年Alex Krizhevsky使用AlexNet[5]在ImageNet竞赛中一举夺魁之后,CNN便成为了计算机视觉的主要技术手段之一,与传统的神经网络(如BP神经网络、RBF神经网络)和分类算法(如SVM)相比,能更好、更快地提取目标特征,在识别准确率和运算速度方面均能满足ADAS的需求。目前已有许多成熟的深度学习网络,Zeiler等人提出ZFNet[6],专注于网络可视化,使CNN有了更强的理论依据,但对于精度与运行时间并无很大提高,Simonyan等人提出VGG[7],其在迁移学习上表现优秀,但一部分的全连接层(Fully Connected layer)严重影响了网络的运行速度,何凯明等人提出具有残差模块的ResNet[8],解决了一部分梯度消失的问题使更深的网络成为可能。但此类网络基于庞大的数据集往往注重分类结果的准确度而对网络的运行速度要求不高。该文所提出的网络舍弃了分组卷积、多维特征提取与合并等操作,更能适应ADAS这一领域。
  2  CNN设计思路
  考虑到ADAS领域需要较大的图片尺寸以获得宽广的视野,该文选择BDD100K[9]的一个子集作为数据集。手工标注了汽车(不区分类型)、车道线、交通信号灯3类检测对象。CNN的输入层为720×1280的三通道rgb图片。
  该文吸收了过去各类不同CNN结构的优点,在对结果准确率影响不大时,更侧重网络的运行速度,思路如下。
  (1)采用了GoogleNet[10]提出的小卷积核串联代替大卷积核的思想,在不减少提取能力的同时减少计算量,同时使用1×1的卷积核进行升降维操作,提取更多的非线性特征。
  (2)引入ResNet提出的残差网络来消弭网络潜在的梯度消失风险。
  设图1(a)输入到输出的映射为f:x→f(x),则图1(b)所示映射为h:x→h(x)=f(x)+x。
  实验证明,这样的“恒等快捷连接”有助于解决梯度消失问题。
  (3)考虑到目标特征明显且易于辨识、目标种类很少,欠拟合可能性很低,该网络舍弃了多维度特征提取与拼接的方式以减少参数量,提升训练速度和运行速度。   [9] Yu F,Xian W,Chen Y,et al.Bdd100k:A diverse driving video database with scalable annotation tooling[EB/OL].https://www.arxiv.org/abs/1805.0468.
  [10] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[A]. 2015 IEEE Confernce on Computer Vision and Pattern Recognition (CVPR)[C].2015.
  [11] Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift[EB/OL].https://www.arxiv.org/abs/1502.03167.
  [12] Yuxin Wu,Kaiming He. Group normalization[EB/OL]. https://www.arxiv.org/abs/1803.08494.
  [13] Redmon J,Farhadi A.Yolov3:An incremental improvement[EB/OL].https://arxiv.org/abs/1804.02767.
  [14] Girshick R. Fast R-CNN[J].https://www.arxiv.org/abs/1504.08083.
  [15] Ren S,He K,Girshick R, et al. Faster r-cnn:towards real-time object detection with region proposal networks[J].IEEE Trans Pattern Anal Mach Intell,2017,39(6):1137-1149.
  [16] Pedro,F Felzenszwalb,Ross B Girshick,David Mc Allester,er al. Object detection with discriminatively trained part-based models[J].IEEE Tran Sactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
转载注明来源:https://www.xzbu.com/8/view-15159761.htm