您好, 访客   登录/注册

面向多变量的WSN层次化数据融合方法

来源:用户上传      作者:

  摘  要: 针对监测多个变量的无线传感器网络(WSN)存在多维度数据冗余的问题,提出一种新型的层次化数据融合方法,通过本地计算缩减网络中传输的数据量,减少传感器能耗。新方法在传感节点和聚集节点进行分层数据融合,首先使用相似度距离判断并压缩重复的采集数据向量,然后利用多项式回归将相关的高维监测变量表达为低维的多项式系数。数据相似性与变量相关性首次在融合方法中被综合性地考虑,压缩和回归技术同时被引入,从不同维度、不同层次减少传输数据量。仿真实验结果表明,相比于现有融合方法,所提方法在传输数据量、能量消耗等性能指标上都具有更好的表现。
  关键词: 无线传感器网络; 数据融合; 多变量; 向量压缩; 多项式回归; 仿真实验
  中图分类号: TN919?34; TP393                   文献标识码: A                      文章编号: 1004?373X(2020)18?0101?05
  Abstract: In allusion to the multidimensional data redundancy existing in the WSN (wireless sensor network) that monitors multiple variables, a new hierarchical data fusion method is proposed, which can reduce the amount of data transmitted in the network by means of the local calculation, and decrease the energy consumption of the sensor. In the new method, the hierarchical data fusion is performed at both sensor nodes and aggregation nodes, the similarity distance is used to judge and compress the repeated vectors of collected data, and the polynomial regression is used to express the associated high?dimensional monitoring variables in terms of low?dimensional polynomial coefficients. The data similarity and variable correlation are considered comprehensively in the data fusion methods for the first time, and the compression and regression techniques are introduced simultaneously to reduce the amount of transmitted data on different dimensions and hierarchies. The simulation results show that, in comparison with the existing fusion methods, the proposed method has better performance on the indexes such as the amount of transmitted data and energy consumption.
  Keywords: WSN; data fusion; multivariate; vectors compression; polynomial regression; simulation experiment
  0  引  言
  WSN(Wireless Sensor Network)是以监测外界环境或对象为目的的新兴网络,它有着非常广阔的应用前景[1]。然而,无线传感器存在体积和成本的限制,其硬件性能十分有限[2]。由于任意模块的运行都需要电源支持,能耗指标便成为了局限传感器能力的最重要因素之一[3]。研究表明,无线网络数据传输是导致能量快速消耗的主要原因[4]。在实际的WSN应用中,单位空间内传感器设备的部署需要满足密度要求,以确保监控区域的覆盖率和网络连通度。在相近时间段内,无论是本地节点采集数据还是相邻范围内的传感器采集数据,都可能高度相似和冗余,重复数据的传输会降低网络使用性能。此外,随着WSN的发展,单个传感器通常配备了多种感知设备,同时监测多个特征,例如电子元器件生产过程中某工位的传感器需要同时装备电化学感知、电量感知等零部件。多个监测变量之间一般存在相关性,不同变量使用独立的数据表示方式,同样增加了网络通信的负载。为了减少网络中传输的数据,数据融合方法被广泛使用[5]。它通过计算本地节点,高效地缩减数据信息,去除冗余与不必要的数据表示,从而实现了减少节点能耗,延长节点工作时间的目的[6]。
  J.Bahi使用前缀频率过滤在周期性的无线传感器网络进行数据融合(Prefix Frequency Filtering,PFF),此方法通过相似性方程寻找由邻居节点产生的相似数据[7],并将所有数据压缩为单个数据记录。G.Elbanby等人提出基于主元分析的数据融合方法(Principal Component Analysis,PCA)应对多变量的WSN应用[8],其主要原理是對多维数据进行降维处理,通过更少的新变量表示原有数据变量的样本。张强等人研究了基于分簇的无线传感网络高效数据聚合方案[9],其中簇内节点引入信息熵减少数据量的发送,簇头节点采用反馈比较值判断是否转发簇内节点的数据。然而,现有方法的融合方式仍然过于单一,有些方法只关注削减相似数据;有些方法将多变量数据的维度降低;还有些方法致力于在结构化网络中分层处理数据。本文在综合现有主流方法优点的基础上,充分利用数据记录的相似性和变量的相关性,提出了一种基于数据压缩与变量回归的多变量层次化数据融合方法(Compression and Regression based Multivariable Hierarchical Data Fusion,CRM),实现传输数据高效缩减。   1  WSNs环境与融合模型
  为了提升数据传输和融合效率,WSNs通常会采用网络节点进行分层处理[10?11],经典的分层网络结构如图1所示,传感节点负责周期性地采集环境数据,先进行本地数据融合,再将缩减后的数据统一传输到唯一对应的聚集节点。聚集节点将收到的邻居数据与自己产生的数据进一步融合,然后将处理后的数据传输给下游聚集节点,直到数据到达了基站或者汇聚节点。
  1.1  传感数据结构
  假设用集合[Nsrc]和[Nagg]分别表示传感节点和聚集节点的集合。[ni]表示第i个具有传感功能的节点,其中[ni∈Nsrc?Nagg],且单个节点拥有K种感知设备,可同时监测K个变量。在周期性采集数据的WSNs中,每个周期F被细分为t个时隙。在单个时隙[sj]内,[j={1,2,…,t}],节点[ni]上可以收集到一个感知数据向量[Vji={vji(1),vji(2),…,vji(K)}]。其中[vji(k)]表示第k个变量的数据。由此可知,在每个周期F内,节点[ni]可收到由t个向量组成的感知数据矩阵[Mi],可以表示为:
  1.2  相似数据压缩
  与监测环境或对象发生变化的频率相比,每个时隙时长的设置一般较短。这造成了在同一节点上连续邻近的感知数据向量相同或者高度相似。同样,同一时间段内的多个邻近节点监测相同现象或对象,感知数据也可能有很高的相似度。因此,如何有效度量数据向量间的相似性是判断能否进行数据压缩的基础。
  将每个向量映射为K维空间的一点,每个变量就是空间中的一个维度。明可夫斯基距离能够度量不同向量在该空间中的距离,距离越近,相似度越高。然而,不同变量的单位可能差别很大,个别变量的数据值差别对距离影响会被放大,所以需要对变量值进行归一化操作。假设变量k的最大值和最小值表示为[maxk]和[mink],那么两个向量[Vxi]和[Vyi]的相似度可表示为:
  根据数据精度需求,WSNs应用会设定一个相似度门限[dTh],当且仅当[d(Vxi,Vyi)≤dTh]时,两个向量才被判定为相似。向量数据可以合并压缩,只需要将原有向量的频率值加1,即可记录另一个相似向量。
  1.3  相关多变量回归
  K维变量的相关性为进一步缩减数据维度提供了可能性。现有多变量处理技术的核心思想是将多变量结构映射到更小维度的空间中,对数据进行降维处理,例如主元分析、因子分析、典型相关分析等[12]。本文基于相关系数的概念探索多变量处理方法,在感知数据矩阵[Mi]中,假设两个变量为[Cxi]和[Cyi],其中[Cxi=v1i(x),v2i(x),...,vti(x)T],那么它们的皮尔逊相关系数可表示为:
  式中:[Cov(·)]是变量间协方差;[Var[·]]是变量的方差。本文通过相关矩阵发现高度相关的变量对,利用多项式回归分析对多变量合并表达。假设存在门限值[rTh],当且仅当[r(Cxi,Cyi)≥rTh]时,两个变量相关且能够进行多项式回归,其中单个变量可以被另一个变量表达为:
  式中:[α]是多项式系数,也是回归分析所求的结果;[q]为拟合阶次,用于控制拟合程度。[q]值越大,拟合精度越高,然而计算复杂度会迅速增加,并且存储的系数变多,也就失去了回归的意义。经过实验测试表明,当[q]值大于3时,随着[q]值的增加,拟合精度的增加变得不再明显。本文采用3作为拟合阶次,在保证拟合效果的前提下,减小了计算复杂度。因为只需要存储自变量[Cyi]和多项式系数[α],拟合后的方程能够轻易地被传感器节点存储。当然,执行回归有前提条件,变量[Cxi]或者[Cyi]的维度要远大于多项式系数的个数,例如本文设置了变量维度门限值[cTh],这样多项式回归才能真正地达到降低数据维度的目的。
  2  WSNs数据融合方案
  由于WSNs具有分层结构,对于处于不同层次的节点,数据融合操作也有所不同。传感节点只负责融合本地采集数据,而聚集节点除了本地数据,同时还需要融合来自于上游传感器节点的数据。新方案中相似度和相关度门限值的设定直接关系到数据在汇聚节点的复原质量。调节门限值既要满足数据复原质量的要求,也要保证融合效率。
  2.1  本地数据融合
  在具有感知功能的任意节点上,采集到的感知数据需要进行本地数据融合处理。感知数据矩阵[Mi]首先在采集周期内进行数据压缩,接着在周期结束后进行相关变量回归,融合效果如图2所示。数据压缩减少了重复或相似的数据向量,即部分行数据[Vi]被删除。变量多项式回归用少量系数替代了部分列数据[Ci],从而进一步缩减数据量。
  假设数据向量和监测变量出现频率由属性[freq]表示,[Vcuri]表示当前对比数据向量,矩阵中变量相关系数的矩阵为[CMi],判定为相关的变量对的集合为[Scorr]。为了用回归方法替代更多的变量,首先找出在变量回归中出现频率最高的变量[Cmaxi],计算公式为:
  接着,与[Cmaxi]相关的变量就可使用由它组成的回归方程表示。本地数据融合的操作可由图3表示。感知数据在采集过程中,一旦发现已經存储了相似的数据向量,就放弃当前采集的向量。完成单个采集周期后,如果变量的维度仍然很大,则需要进行变量相关性判断,然后根据情况执行多项式回归,将多维变量存储转变为回归系数的存储。
  2.2  下游数据融合
  传感节点将本地融合后的数据传输到对应的聚集节点。作为下游节点,聚集节点将接收的数据与自己产生的数据组合进行下游融合。由于相关变量的回归表达,来自于不同节点的缩减数据矩阵的变量可能不同,首先要对变量相似度进行判断。假设来自两个节点数据矩阵[Mi]和[Mj]所包含变量的集合为[CSi]和[CSj],判断变量集合相似度可以采用杰卡德距离,如下:   如果两个矩阵的变量完全相同,则比较数据向量相似度,符合条件的数据向量可以被压缩处理。假设所有数据矩阵的集合为[SM](包括本地节点的数据矩阵和接收的上游节点数据矩阵),下游数据融合的过程如图4所示。
  3  仿真与性能分析
  OMNeT++作为仿真平台被用于评估WSN数据融合方法的性能。基于分层结构的WSN可通过路由控制协议搭建,并且实现周期性数据采集事件作为仿真应用。节点产生的感知数据来源于英特尔伯克利实验室的54个具有监测天气功能的传感器[13]。在每一个采集时隙[sj=31 s],传感器收集到4个变量信息,包括温度、湿度、光照和电压。以编号为5的节点的采集数据为例,得到变量相关矩阵,如表1所示。假如[rTh]=0.95,{温度,湿度}{温度,电压}为相关变量对,湿度和电压可被以温度为自变量的拟合方程表示。
  由于需要传输的数据量的变化能体现融合方法的效率,那么融合数据百分比就成为了主要的观察度量参数,其值等于融合后的数据量与融合前的数据量的比值,百分比值越低说明融合效果越好。相邻时隙的数据可能相同或高度相似,只需记录一个数据向量,增加其出现的频率即可代表其他相似数据。影响压缩效率的主要参数是相似度距离的门限值[dTh],实验结果如图5所示。
  随着[dTh]增加,相似判定的标准被降低,更多数据得到压缩,传输数据的比率总体呈现下降趋势。另外,本文提出的融合方法适用于不同的时隙个数,支持不同的应用场景,重复数据越多,压缩效果越明显。当时隙t=90且[dTh]=0.12时,压缩数据能大约达到原数据的11%。
  在消除相似数据向量后,剩余数据会进行变量回归,用更少的变量和回归系数表示所有变量,如图6所示。
  在图6中,两个传感节点的数据被用于测试。当[rTh]值不断缩小时,更多的相关变量可以被拟合方程及其参数替代。对于节点5,当门限值被放宽到0.92,经过相似数据压缩和变量回归的数据约等于原始数据的5%。对于节点10,由于回归产生的缩减效果更明显,[rTh]在从0.98向0.92变化过程中,数据缩减比率提高了约2.8倍。
  为证明本文所提CRM融合方法性能的优越性,选取了PFF和PCA融合方法作为对比方法。经过比较,CRM从相似性和相关性两个角度进行混合融合,数据量缩减效果要好于单独使用一种原理进行融合,实验结果如图7所示。在时隙数目增加的情况下,CRM和PFF都会随之减少,而PCA减幅相对不够明显。潜在原因是PCA主要关注缩减变量维度,对重复采集数据向量出现的缩减效果有限。CRM总体性能最佳,当时隙数目等于120时,原始数据能被缩减至7%左右。
  数据融合方法的最终目的是通过减少传输数据,减少传感器的能耗。因此,本文将无线通信能量消耗模型实现于仿真系统中,全面评估新方法。无线电通信在发送器或接收器电路上的能量耗费为[eelec nJ·bit-4] ,信号放大器的耗费为[eamp pJ·bit-1·m-2],传输l bit数据通过距离d m所耗费的理论能量为:
  计算任务同样耗费能量,如果[Nadd,Nsht,Ncmp]分别表示计算中加法、位移和比较操作的次数,[εadd,εsht,εcmp]分别表示对应单位次数的能量耗费,那么计算任务的能量耗费如下:
  数据传输总共的能量耗费等于计算与传输之和,如下所示:
  一个采集周期完成后会产生一个感知数据矩阵,其中每个数据向量代表单个时隙的记录,其数据容量为32p bit,p代表变量的个数。在图8中,随着单周期内时隙个数的增加,PCA的变化趋势最为显著。是由于较低的计算复杂度和相似数据的增加;PFF增长速度较慢,消耗能量从0.08 J增长到0.18 J附近;CRM在3种方法中始终保持最低能量消耗,因为它有优秀的数据缩减性能和较低的计算量要求。当有120个时隙在周期中时,PCA需要消耗能量约0.35 J;而CRM只需要使用大约消耗0.13 J能量传输同等数量的原始数据。
  4  结  语
  由于传感器部署覆盖率、采集频率等要求,WSN采集的传感数据可能高度相似,而且多个监测变量一般存在相关关系,这导致传感器需要存储和传输大量的数据。本文提出了一种新数据融合方法,以减少传输数据量,节省传感器能源。在经典分层结构的WSN,新方法在传感节点和聚集節点进行层次化数据融合,利用相似度距离判断并去除重复数据向量,同时使用多项式回归减少传输的变量个数。仿真实验中,分析了不同参数对于融合方法的影响,并且经过与多个现有融合方法对比发现,新方法在数据量和能量消耗上都拥有更好的性能。
  参考文献
  [1] 任志玲,张广全,林冬,等.无线传感器网络应用综述[J]. 传感器与微系统,2018,37(3):1?2.
  [2] WANG C, JIANG C, LIU Y, et al. Aggregation capacity of wireless sensor networks: extended network case [J]. IEEE transactions on computers, 2014, 63(6): 1351?1364.
  [3] MARTINEZ G, LI S, ZHOU C. Wastage?aware routing in energy?harvesting wireless sensor networks [J]. Sensors journal IEEE, 2014, 14(9): 2967?2974.
  [4] TENG H J, LIU X, LIU A F, et al. Adaptive transmission power control for reliable data forwarding in sensor based networks [J]. Wireless communications & mobile computing, 2018(2): 1?22.   [5] HARB H, MAKHOUL A, TAWBI S, et al. Comparison of different data aggregation techniques in distributed sensor networks [J]. IEEE access, 2017, 5(1): 4250?4263.
  [6] KOUPAEE M, KANGAVARI M R, AMIRI M J. Scalable structure?free data fusion on wireless sensor networks [J]. Journal of supercomputing, 2017, 73(12): 5105?5124.
  [7] BAHI J M, MAKHOUL A, MEDLEJ M. Frequency filtering approach for data aggregation in periodic sensor networks [C]// 2012 IEEE Network Operations and Management Symposium. Hawaii: IEEE, 2012: 570?573.
  [8] ELBANBY G, MADBOULY E E, ABDALLA A. Fuzzy principal component analysis for sensor fusion [C]// International Conference on Information Science. Montreal: IEEE, 2012: 442?447.
  [9] 张强,卢潇,崔晓臣.基于分簇的无线传感器网络数据聚合方案研究[J].传感技术学报,2010,23(12):1778?1782.
  [10] 张雅琼,张慧.无线传感器网络分簇路由协议研究[J].现代电子技术,2014,37(8):32?34.
  [11] 胡中栋,伍华林,王振东.多级异构无线传感器网络高能效多跳分簇路由算法[J].仪表技术与传感器,2017(9):103?108.
  [12] VERDE R, IRPINO A, BALZANELLA A. Dimension reduction techniques for distributional symbolic data [J]. IEEE transactions on cybernetics, 2016, 46(2): 344.
  [13] SAMUEL Madden. Intel berkeley research lab [EB/OL]. [2017?03?25]. http://db.csail.mit.edu/labdata/labdata.html.
转载注明来源:https://www.xzbu.com/8/view-15309921.htm