您好, 访客   登录/注册

基于优化三维重建技术的快速影像拼接

来源:用户上传      作者:

  摘 要:以无人机代替卫星遥感实现三维重建技术的影像拼接是一种成本低、灵活度高的实现方式。室外无人机影像拼接通常存在深度相机对环境光照条件十分敏感等问题,以运动恢复结构(SFM)和多视角立体(MVS)技术结合构建拍摄区域的密集点云,再通过密集点云实现影像拼接的方法能够解决上述问题,但存在计算量较大和实时性较差的缺点。采用SURF特征描述子和最近邻匹配方法降低计算量,优化算法实时性能,同时提出一种增量式SFM流程中最优图像添加策略,提高光束平差法效率,并降低误差。实验结果表明,该方法能够在较短时间内获得较高精度的拼接影像,具有良好实时性。
  关键词:三维重建;无人机图像拼接;运动恢复结构;多视角立体;算法优化
  DOI:10. 11907/rjdk. 201473 开放科学(资源服务)标识码(OSID):
  中图分类号:TP317.4 文献标识码:A 文章编号:1672-7800(2020)007-0219-04
  Rapid Image Splice Based on Optimized 3D Reconstruction Technique
  CHEN Rui1, CHEN Zhi2, ZHANG Jia-yu3, ZHENG Bo-wen1
  (1. Bell Honors School, Nanjing University of Posts and Telecommunications;2. College of Computer, Nanjing University of Posts and Telecommunications;3. College of Overseas Education, Nanjing University of Posts and Telecommunications, Nanjing 210003,China)
  Abstract: Replacing satellite remote sensing with drones to realize the image stitching of 3D reconstruction technology is a kind of implementation with low cost and high flexibility. The technology of image stitching with drones in outdoor areas usually has the problem that the depth camera is very sensitive to ambient lighting conditions. This problem can be solved by using Structure from Motion (SFM) and multi-view stereo (MVS) to construct dense point clouds in the shooting area and using the dense point clouds to realize image stitching. Nevertheless, it has drawbacks of large calculations and poor real-time performances. The method of SURF feature descriptor and nearest neighbor matching is used to reduce the computation and optimize the real-time performance of the algorithm. At the same time, an optimal image addition strategy in the process of incremental SFM is proposed, which improves the efficiency of the bundle adjustment method and reduces the possibility of errors. Results of the experiments show that the method proposed in this paper can obtain high-precision stitched images in a short time, and has good real-time performance.
  Key Words: 3D reconstruction; rapid image splice; structure from motion; multi-view stereo; algorithm optimization
  0 引言
  传统载人航空遥感技术和卫星遥感都受限于天气和时间等因素,无法及时获得遥感信息,文献[1]指出无人机具有成本低、灵活性高、风险低等优点,可以很好地弥补其在对地观测精度、时效和频度上的不足。如何快速实现无人机影像的校正、拼接、融合、分析是无人机领域发展的方向。常规无人机影像拼接方法利用数字高程模型对影像进行正射校正,再根据影像地理信息完成拼接[2],并通过多项式拟合参考影像与待配准影像之间的几何变换关系[3]。这两种方法都需要人工干预,且前者需要布设高精度控制点,后者需要辅助影像,都不适用于实时性要求较高的领域。目前,有学者[4]将基于图像的三维重建技术用于全自动重建拍摄区域,在更短时间内获得精度不低于前两种方法的拼接影像。
  目前,基于图像的三维重建技术包括:①基于单幅图像的几何投影和深度学习进行三维重建[5],其受图像中几何和光照条件影响较大,不适合在大型户外场景中使用,一般多用于单个物体的三维重建过程[6];②基于RGB-D深度相机的同时定位和映射(SLAM)、运动恢复结构(Structure From Motion,SFM)[7]和多视角立体(Multi-view Stereo,MVS)算法[8],如ORB-SLAM2[9],可以在短時间内以较高精度重建受光照影响不大的室内场景,由于深度相机本身对于环境光照非常敏感,这种方法不适用于户外无人机航拍。   本文着重分析基于多幅图像的SFM技术重建拍摄区域的稀疏点云,通过MVS技术构建密集点云并实现影像拼接。分析此方法缺点,并提出合适的改进方案。
  1 基于三维重建的影像拼接流程
  基于三维重建的影像拼接流程如图1所示。
  由于单通道可反映影像姿态参数,本文提取输入图像的灰度图作为SFM的输入,通过单通道影像的姿态、几何信息恢复出拍摄地区的结构后,再利用这些结构信息拼接多通道的彩色图像。
  在SFM流程中,首先对每幅图片提取图像特征,由于拍摄区域的复杂性,要求使用鲁棒性较强的描述子。紧接着,通过匹配两幅图片的特征点,找到特征点匹配个数达到要求的图像对。为了降低误匹配率,需要用几何约束[10]加以检测,再通过RANSAC[11](随机抽样一致性)算法进行滤波。由于无人机图像数据的无序性,需要所有图像两两匹配,最后将多幅图像中出现的匹配点连接起来,形成运动轨迹。有了运动轨迹,即三维空间中的点在不同视角下的二维投影位置,就可以恢复出三维结构。由于存在噪声,可以采用光束平差法[12](Bundle Adjustment)消除投影误差。最终输出重建的三维稀疏点云。
  MVS算法用于将稀疏点云细化,产生密集重构。通过SFM输出每个图像的相机参数,在二维特征上未正确检测区域上计算三维顶点或进行匹配。通过MVS产生的三维密集点云,可以生成多边形网格表面,并通过后续纹理处理,最终实现影像拼接。
  2 问题分析
  SFM+MVS的三维重建方法可以不借助其它辅助条件,较高精度地重建出拍摄地区的三维图像。但其本身还存在一定缺点,主要表现在如下方面:
  (1)图像特征提取能力。SIFT(尺度不变特征变换)[13]是一种对旋转、尺度缩放、亮度变化等均保持良好不变性的特征描述子。但是,SIFT算子的特征向量高达128维,其计算复杂度很高。同时,SIFT算子对于边缘光滑目标的特征点提取能力较弱[14]。目前,有学者[15]提出通过GPU对SIFT特征点的提取算法进行加速。但是这种方法不仅需付出较大硬件成本,还需要专用图像处理器配合。
  (2)数据特征匹配效率。在处理大区域无人机影像序列问题中,影像之间的相互位置关系未知,每一对影像都需要两两匹配。由于特征向量的高维特点,采用暴力匹配策略往往效率不高。
  (3)光速平差法初值及下一个最佳视图选择。光束平差法是一个高维非线性优化问题,往往采用迭代方法求解,因此需要一个合适的初值。一旦被赋予错误初值,将会陷入局部最优。同时,在初值选定后,图像添加顺序也十分重要,选择的差错会带来巨大的时间代价,并导致迭代无法收敛。
  3 优化方法
  3.1 图像特征点提取高效性优化
  鉴于SIFT具有维数高、计算复杂度高等特点,本文采用SURF代替SIFT。SURF(Speeded Up Robust Features)[16]是对SIFT的一种改进算法,不仅保留了SIFT特征描述子在旋转、尺度缩放、亮度变换等方面的不变特性,其特征向量也降低至64维,使得其计算速度大大提高。对比其它特征描述子,如BRISK[17]、ORB、FREAK,SURF在无人机图像处理中具有更好的鲁棒性[18]。
  3.2 图像特征匹配高效性优化
  为了解决暴力特征匹配效率不理想的缺点,本文采用一种最近邻搜索[19]方式。
  用[F(I)]表示图像[I]上的特征点,对于每一个图像[I]和[J],考虑其每一个特征[f∈F(I)],需要找到最近邻特征[fnn∈F(J)]。
  其中,采用欧式距离,当最近邻与次近邻距离之比小于一个阈值时,可以判定其为可接受的匹配对,阈值一般取经验值0.6。这种方案会导致特征点中存在较多误匹配,可以通过两种约束条件进行剔除。
  (1)图像[I]中的特征点在图像[J]中至多匹配一个特征点,需满足一一对应条件。
  (2)计算对极几何后满足几何约束,即:
  其中[,E]为本质矩阵,仅依赖于两张图像之间的相对位姿,[pl]与[pr]分别是左像点和右像点。
  3.3 光束平差法初始值选定及下一最佳视图选择优化
  光束平差法是为了减少在增量式SFM[20]过程中的误差积累。在理想情况下,一个物体在不同视角下应对应相同的点,但是在三维重建实际过程中,可能会产生错误匹配。
  描述摄像机的外参数为[3*3]的旋转矩阵[R]和[1*3]的平移向量(或者摄像机中心坐标向量),摄像机的内参数用一个焦距[f]和两个径向畸变参数[k1]、[k2]描述。几何场景提供轨迹中的每个3D点[Xj],通过投影方程,一个3D点[Xj]被投影到摄像机的2D图像平面上。投影误差就是投影点和图像上真实点之间的距离,如图2所示。
  对于[n]个视角和[m]个轨迹,投影误差的目标优化方程可以写为:
  当相机[i]观察到轨迹[j]时,[wij]取1,否则取0,由于场景中特征点较多,这是一个巨大的高维非线性优化问题。目前,常采用LM算法解决这类非线性最小二乘问题。
  通过迭代方法求解时需要给算法赋予合适初始值。有两点要求:一是足够多的匹配点,二是足够远的相机中心。为了寻找合适的初始图像对,在特征匹配阶段,可以采用RANSAC算法四点法计算单应矩阵,满足单应矩阵的匹配点称为内点,不满足单应矩阵的称为外点,满足拥有足够匹配内点数量,同时内点占比最小的像对就是初始化像对,一般阈值为多于100个匹配内点。在初始化完成后,如何选择图像添加顺序也是一个重要问题。错误的决定可能导致相机配准错误和点云生成错误,因此视图选择会极大影响姿态估计质量和三维点云的完整性和準确性。本文选用一个未被添加且能观测到最多三维点的视图作为下一个最佳视图,可有效提升无人机影像无序情况下的点云生成准确性。   4 实验结果及分析
  本文实验数据是60张1 368×768像素的无人机航拍影像序列,图3是已经过灰度图像提取的部分影像序列。
  表1给出了两种算子提取时间和特征点对比,Surf算子耗时56.425s,共提取148 318个特征点,而Sift算子耗时99.983s,共提取499 276个特征点。由此可见,使用Surf效率较高,但精度低于Sift。
  图4、图5是Sift影像匹配和Surf影像匹配部分效果图,其中Sift影像匹配耗时179 854s,而Surf影像匹配耗时4 885s。可以看出,采用Sift算法时,在匹配过程中会存在许多无效特征点。因此,Surf算法提取的特征点虽然较少但有效性更高,所耗时间更少。
  上述实验中,图像1~8的三维重建共生成了7 422个三维点。光束平差法使得点云投影的均方根误差(RMSE)从405.384降至19.796 1。按照图像序列顺序的图像添加方式和以匹配点数量为边权建立最大生成树的图像添加方式都会陷入局部最优。这两种策略分别会在进行到第7张和第4张图像时失败。图6展示了算法生成的稀疏点云结构。
  5 结语
  本文提出一种优化的三维重建方法以获得区域点云结构,实现无人机影像拼接。利用该方法,对传统三维重建流程中的SFM技术对图像特征提取算法、特征匹配算法以及光束平差法的迭代过程进行优化。实验结果证明,该方法可以在较短时间内获得较高精度的拼接影像,具有较好的实时性。
  后续研究中,将在本文拼接图像数据采用大区域静态自然景象基础上,进一步考虑景象中存在的动态点,如动物、人给拼接带来的精度误差。
  参考文献:
  [1] 李德仁,李明. 无人机遥感系统的研究进展与应用前景[J]. 武汉大学学报(信息科学版),2014,39(5):505-513,540.
  [2] UYSAL M,TOPRAK A S,POLAT N. DEM generation with UAV photogrammetry and accuracy analysis in Sahitler hill[J].  Measurement,2015,73(6):539-543.
  [3] 孙家抦. 遥感原理与应用[M]. 武汉:武汉大学出版社,2013.
  [4] 邹松,唐娉,胡昌苗,等. 基于三维重建的大区域无人机影像全自动拼接方法[J]. 计算机工程,2019,45(4):235-240.
  [5] SAXENA A, SUN M, NG A Y. Learning 3-D scene structure from a single still image[C]. 2007 IEEE 11th International Conference on Computer Vision. IEEE, 2007.
  [6] 陈加,张玉麒,宋鹏,等. 深度学习在基于单幅图像的物体三维重建中的应用[J]. 自动化学报,2019,45(4):657-668.
  [7] SNAVELY N,SEITZ S M,SZELISKI R. Modeling the world from internet photo collections[J]. International Journal of Computer Vision, 2008, 80(2):189-210.
  [8] QU Y, HUANG J, ZHANG X. Rapid 3D reconstruction for image sequence acquired from UAV camera[J].  Sensors,2018, 18:225.
  [9] MURARTAL R,TARDOS J D. ORB-SLAM2: An open-source SLAM system for monocular, stereo, and RGB-D cameras[J]. IEEE Transactions on Robotics,2017,33(5):1255-1262.
  [10] 陆胜寒. 基于影像几何约束匹配策略的三维重建方法研究与实现[D]. 北京:清华大学,2018.
  [11] 别治峰,刘守山,黄春凤. 基于SURF-RANSAC配准的三维重建[J]. 科学技术与工程,2019,19(28):239-244.
  [12] 邓琳蔚,王治,张梦梦,等. 一种基于光束平差法的相机标定方法[J]. 兵工自动化,2020,39(2):8-13.
  [13] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60(2):91-110.
  [14] 金妍君,万旺根. 基于联合SIFT和SURF特征的三维表面重建[J]. 电子测量技术,2019,42(11):107-111.
  [15] 王瑞,梁华,蔡宣平. 基于GPU的SIFT特征提取算法研究[J]. 现代电子技术,2010(15):49-51,54.
  [16] BAY H, TUYTELAARS T, GOOL L J V. SURF: speeded up robust features[C]. Proceedings of Computer Vision-ECCV 2006, 9th European Conference on Computer Vision, Part I, 2006.
  [17] LEUTENEGGER S, CHLI M, SIEGWART R Y. Brisk: binary robust invariant scalable keypoints[C].  Barcelona:IEEE International Conference on Computer Vision,2011.
  [18] 索春寶,杨东清,刘云鹏. 多种角度比较SIFT、SURF、BRISK、ORB、FREAK算法[J]. 北京测绘,2014,28(4):23-26,22.
  [19] HU L J,NOOSHABADI S. High-dimensional image descriptor matching using highly parallel KD-tree construction and approximate nearest neighbor search[J]. Journal of Parallel and Distributed Computing,2019,132:127-140.
  [20] 韩超. 基于无人机航拍图像的三维重建SfM算法研究[D]. 呼和浩特:内蒙古工业大学,2019.
  (责任编辑:孙 娟)
转载注明来源:https://www.xzbu.com/8/view-15285403.htm