您好, 访客   登录/注册

工程研究中缺损数据的填补方法分析探究

来源:用户上传      作者:

  摘要:
   本文主要讲述了工程研究中缺损数据的主要的简单填补方法,涉及了人工填补、特殊值填补、回归填补、信息扩散填补以及多重填补,并浅析了各种填补方法的优缺点。但在实际问题中,仍需要考虑各方面的因素,结合实际情况,对填补的数据进行最优化处理。
  
  关键词:
   缺损数据 ; 信息扩散; 多重填补
   前言
  随着工程技术的发展越来越迅速,人们所掌握的各种工程手段也更加的成熟,但工程研究主要是以大量的数据处理为基础的,这就使得工程数据的分析与处理显得尤为重要。然而,在现实的数据采集与发掘的过程中,由于数据采集技术和偶然的原因,使得某些重要的数据丢失或无法测得,致使这些工程研究与应用的难度增加,且研究所得结论也会或多或少地受到影响。在现实情况下,缺损数据所造成的影响主要有以下几点:1.含有缺损数据,导致获得的信息量减少,使统计精度降低;2.数据处理中的许多假设都是建立在无缺损数据的前提下,致使处理的结果不正确;3.缺损数据本身就是重要的数据源,使得后续计算与处理无法继续。由此可知,对这些缺损数据或不完备数据的处理将成为工程研究上一大重要问题。
  工程上缺损数据产生的原因以及主要的处理方法
   缺损数据产生的原因是多样的,主要分为由于器械精度不够而导致测得错误的数据或者无法测得的数据和由于人为的原因导致数据记录错误或数据丢失。而在工程研究上,由人的失误等主观因素导致的缺损数据是可以避免的,这些缺损数据大多数是由于器械等客观因素导致的。例如在地震研究中,许多数据都不可能准确地测得;再例如在古建筑研究方面,如何根据现测得的古建筑材料性能参数估计该古建筑在不做人工处理的条件下仍能保存的时间……缺损数据可谓无处不在,缺损数据的处理或许将成为工程师的一大难题。
   目前,工程上处理这些缺损数据的方法主要是删除、填补和忽略。现阶段最常用的处理方法就是删除了,甚至一些统计软件也常用这一依据,在所删除的元组相对于整个数据系统相对比较小的情况下,该处理方法非常有用,且简单易行。然而很多时候,缺损的数据本来就是很重要的数据,必须要获得该缺损值,这种方法就不可行了;同时,在所挖掘的数据本来就少的情况下,这种以牺牲现有数据来得到完整的数据系统也是不明智的,该方法的局限性就在于此。对于填补缺损数据,无疑是一种比较实用的处理方法。在填补恰当的情况下,对数据的后续研究与处理将起到非常重要的作用。本文主要就是讨论缺损数据的最优填补方法。再者,就是忽略这些缺损的数据,也即不处理这些数据。相比于删除和填补误差较大的情况,直接在含有缺损数据的数据集上进行数据分析与处理也不失为一种较好的处理方法。
  缺损数据的填补方法分析比较
   填补缺损数据,也即将缺损的数据用合适的值代替。如何使代替值与真实值接近则成为填补的关键,若填补合适,则将对数据的进一步处理起至关重要的作用;相反,填补出现较大的失误则将对后续的分析带来困惑,甚至得到错误的结果。一般情况,缺损的数据不外乎两种,一种就是缺损的数据是具有离散性质的,例如决策表中的属性;另一种则是具有连续性的,例如高耸建筑某时刻的沉降值。
   人们通常观测到的数据不可能是连续的,往往是测定需要的数值或者通过观测某些特定点的值来近似估计所需要的值。对于具有连续属性的数据,需要将其离散化,变为具有离散特性的数据,需要某些特定值时,则可以用离散缺损数据填补的方法将其进行填补,这大大减少了数据观测的复杂程度。而连续属性离散化,就是在连续属性的特定范围内划定若干个离散点,将连续属性分为若干个离散区间,若区间划分较小的情况下,则可以用该区间某一属性值代替该区间的属性值。目前国内外连续属性离散化的方法主要有等宽区间法、等频区间法、K一means算法、ChiMerge算法、StatDise算法等。对于不同的连续属性,应采用相应的方法将其离散化,继而用离散型缺损数据的填补方法将其填补。由此,数据填补最终都可归为填补离散型缺损数据。而对于离散型缺损数据(以下简称为缺损数据),主要的填补方法有以下几种:
  人工填补
  人工填补,顾名思义,就是由人直接将缺损的数据填补完整。由于最了解数据的还是数据获得者,因此这个方法得到的数据与真实值也较为接近。同时人工填补也是现阶段为数不多的不以现有数据为依据的填补方法。但当需填补的数据规模较大时,这个方法明显不合适,工作量大,费时费力。
  可能值填补
   所谓可能值填补,就是利用现有数据填补缺损值,它是以最大概率的可能取值来补充所缺的值。以下介绍的可能值填补主要有平均值填补、众数填补、中位数填补、期望最大填补、相似对象值填补等。
  2.1 平均值填补
   平均值填补,就是取该属性其他对象取值的平均数作为该属性的取值。平均值填补分为总平均值填补和条件平均值填补。总平均值填补是取将该属性集的所有属性的平均值作为填补值,若同一属性存在多个缺失值,则这些填补值将完全相同,不符合变量之间的波动规律。相反,条件平均值填补是将这个属性计划分为若干个范围,取缺损值所属范围的属性集的平均值作为填补数,这显然对变量的波动程度的估计有所提高。平均值填补也存在一定的缺陷,首先均值填补已经降低了整个属性集的方差;其次,若填补的变量所在的属性集不符合正态分布或与正态分布相差较大,则平均值填补就不合理了;最后,当缺损值的属性集是非数值型的时候,平均值填补则不能进行。
  众数填补
   众数填补,就是取该属性其他对象取值的众数作为该属性填补值。对于具有较高重复性的属性集,众数填补比平均值填补显得更加符合属性集的变化规律。而对于非数值型的缺损值,有时也可考虑采用众数填补。
  中位数填补
   相比于平均值填补和众数填补,中位数填补就是取属性集的中位数作为填补值。对于变量分布是偏态的属性集,中位数填补比平均值填补要更加准确。中位数填补同样可以应用于非数值型的属性集。
  期望值最大填补(EM算法)
   EM算法就是这样,假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。这种方法强调先对缺失数据进行估计,最大化是在忽略缺失数据的前提下进行最大似然估计的。当具备缺失数据的估计值和给定的观测值时,就可以进行期望计算,求出缺失数据的条件期望,用期望值代替缺失值,进行循环计算,直到最大似然估计收敛为止。这种方法的最大优点源自于在大样本条件下,它能非常简单地执行并且能通过稳定、上升的步骤可靠地找到全局最优值。
  相似对象值填补(热卡填补)
   相似对象值填补,也即热卡填补,它要求在现有的数据里找到与缺失对象最相似的对象,用该对象相应的属性值代替缺失值。该方法简单易行,且能保持填补数值与变量非常接近。但该法主观因素较多,没有同一的标准衡量相似度,而且耗时费力。
   同样,众数填补、中位数填补、热卡填补也可以拓展成条件众数填补、条件中位数填补、条件热卡填补。
  回归填补
   回归填补,即是通过建立变量Y与自变量Xi(i=1,2,…)的回归模型来预测Y的缺失数据,也即建立缺损数据所在的变量关于自变量的函数关系式,进而用该点的函数值代替缺失值,在现阶段主要可以通过多项式拟合来填补缺损的数据。在数据量较小的情况下,该方法明显有扭曲数据分布的缺点,并且对于相同的Xi,如果对回归模型不加以处理,就会得到相同的填补值,这就和总体均值填补一样,扭曲了变量的变异性质。若在回归填补中增加一个随机成分,将其和作为填补值,这样就克服了扭曲变量变异性质的缺陷。这种方法的关键在于如何确定最优的回归函数关系模型,不同的情况要具体而议,而且要考虑许多客观因素。

  信息扩散填补
   信息扩散原理是由黄崇福教授提出的,虽然现在还不是完全很成熟,但在数据填补、风险评估等领域有着很重要的意义。它的原理是将A点的信息或数据通过一定的衰减传递到其他点,再将这些点得到的信息依次传递下去,最后B点肯定能得到一定的信息量。反之,B点得到的信息或数据也可传递给A点。通过该方法,我们可将已有的观测值通过一定的扩散形式传递给需要填补的观测点,进而用这些点最终得到的传递值代替其观测值。目前该方法存在的不足之处就是如何确定扩散函数以及扩散的窗宽,这都需要根据实际问题进行大量的验算,最终确定扩散函数及窗宽。
  多重填补
   以上介绍的填补方法,填补的数据都是唯一的。而多重填补的原理是首先为缺失值产生一系列用来填补的候选值,把这些候选值填补到缺失值后得到一系列的完整数据集合,对这些完整数据集采用相同的处理方法,再综合分析考虑,选取最合适的缺失数据候选值。该方法在确定候选值时可以应用上述的各种填补方法,而且考虑了许多不确定因素,在数据分析处理中占有很高的地位,但它不适合数据的挖掘,而且计算也很复杂。但如果我们已经通过前面所述方法得到了若干候选填补值,就可以用该方法确定最佳的填补值。
  总结
  缺损数据的填补方法固然有很多种,但针对不同的情况,如何合理的选取填补方法才是填补的关键。只有弄清缺失数据的原因、特性、数据类型、数据集分布等许多因素,才可以为选取合适的填补方法提供依据。而且通过以上的分析,每种方法都有其优缺点,如果在数据填补过程中能综合考虑,或者将不同的方法加以融合,可能会使得填补效果更加理想。除此之外,填补结束后还有考虑填补的合理性,即先填补后分析其合理性,如此循环反复,方可取得合理、理想的填补效果。
  
  
  参考文献:
  [1] 邓银燕.缺失数据的填补方法研究及实证分析[D].西安:西北大学,2010
  [2] 宫悦.基于粗糙集的不完备信息系统数据挖掘方法研究[D].大连:大连海事大学,2008
   [3] 张昕.不完备信息系统下空缺数据处理方法的分析比较[J].湖南师范大学学报,2008,21(4):444-447
   [4] 王新洲,游扬声,汤永净.最优信息扩散估计理论及其应用[J].地理空间信息,2003,01(1):10-21
   [5] 黄崇福.非完备样本知识优化处理[J].北京师范大学学报(自然科学版),1992,28(2)


转载注明来源:https://www.xzbu.com/2/view-567635.htm