基于改进的CDC-MVT法的大坝安全监测数据分析及应用
来源:用户上传
作者:马琳 杨蕾 戚丹 赵珍
摘 要:针对水利工程在运行期变形监测数据的处理,提出将中心最短距离(CDC)法与椭球多变量整理(MVT)法相结合应用于监测数据分析中,构成一种基于鲁棒尺度的CDC-MVT粗大误差综合检测算法,能够更为准确地检测异常值,并将其应用到工程实例中,通过实例分析验证了该方法的可行性。
关键词:灌溉水源工程;数据;分析;检测
中图分类号:S277.7 文献标志码:A 文章编:1003-5168(2022)19-0069-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2022.19.015
Analysis and Application of Dam Safety Monitoring Data
Based on Improved CDC-MVT Method
MA Lin1 YANG Lei2 QI Dan1 ZHAO Zhen1
(1.Yangling Vocational and technical college, Yangling 712100, China;
2.Shaanxi Water Resources and Electric Power Survey, Design and Research Institute, Xi'an 710000, China)
Abstract: Aiming at the deformation monitoring data processing of hydraulic engineering in operation period, the combination of central shortest distance (CDC) method and ellipsoidal multivariable sorting (MVT) method is proposed to be applied to the monitoring data analysis to form a CDC-MVT gross error comprehensive detection algorithm based on robust scale, which can detect abnormal values more accurately and apply it to engineering examples, the feasibility of this method is verified by an example.
Keywords: irrigation water source project; data; analysis;testing
0 引言
水利工程建成后,为了建筑物能够安全可靠运行,采用安全监测手段实时监控建筑物的运行状态,而监测资料的分析是判断建筑物安全运行的重要手段,因此对观测资料做出及时、合理、有效的分析是安全工作的重要组成部分。
水利工程结构复杂,所处环境影响因素较多,同时,监测仪器精度、工作状态及可靠性等各方面均对监测数据有影响,或多或少都会存在随机误差或系统误差,这就导致直接获取的监测数据并非完全可用,因此,首先需要对原始监测数据进行合理性分析[1-2]。
1 数据合理性诊断
鉴于大坝结构性态的复杂性,监测仪器精度、可靠性,数据观测过程不可预估因素等的影响,致使大坝安全监测资料中,不可避免地会存在数据误差信息,确定监测资料合理性对后续大坝安全评价至关重要。为了能够准确全面地监测大坝运行状态,通常需要布置大量仪器和项目,其中包括应力应变、坝体变形观测、渗流量观测、温度观测等。根据有关误差理论,大坝安全监测值x由所监测性态的“真值”[x]和误差e组成,其中误差e根据造成其产生的原因不同,可大致分为随机误差、系统误差和粗大误差3种[3]。
1.1 随机误差
因随机因素或偶然因素导致的误差,符合正态分布并且其正态分布的均值为零,随机误差普遍存在于大坝安全监测数据中。
1.2 系统误差
系统误差主要由监测仪器故障产生,造成故障的原因是相互独立的偶然因素,该类误差偏离真实值较大,表现为单侧点数值异常波动并伴有一定的阶段性和连续性。
1.3 粗大误差
在观测过程中,因数据记录、数据处理、仪器操作等存在人为疏忽导致的误差,特点是偏离真实值较大。
2 监测数据粗差识别
传统粗差检测算法中,常采用主元分析法(PCA)进行异常值识别[4],当样本量很大时,很多计算会浪费在正常点的验证上。目前,常用的粗差识别方法有基于距离和密度的方法[5]和基于模型的方法[6-7]。Jolliffe[8]利用PCA对粗差进行检测,采用该方法检测,会出现将正常点与粗大误差点混淆的情况。
考虑到历史数据中的粗差会影响监控效果[9],对当前常用的粗差检测算法的原理和不足之处进行分析,提出一种新的异常值检测算法,即将中心最短距离法(CDC)和椭球多变量整理法(MVT)结合成为一种新的算法――一种基于鲁棒尺度的CDC-MVT检测算法。
2.1 传统尺度和鲁棒尺度的中心化和标准化
2.1.1 基于传统尺度的中心化和标准化。{xi}为某个变量,对该变量采样n次后产生的序列记为{x1,x2,…,xn},进行中心化和标准化,其过程如式(1)。
[di=(xi-ax)/s] (1)
nlc202211181100
式中:s为标准差,[ax]是{xi}的平均值,根据[3σ]准则,当出现[d]>3的采样时,则认定该采样为异常值。
2.1.2 基于鲁棒尺度的中心化和标准化方法。此方法分别用鲁棒尺度中的数据序列{xi}的中值xm替换传统尺度公式中的均值[ax],用数据序列{xi}的中值偏差绝对值的中值(Median Absolute Deviation from the Medion)指标sm替换传统尺度公式中的均值标准差s,即式(2)。
[sm=1.482 6 median{xi-xm}](i=1,2,…,n)
(2)
式中:median{}是取中值函担xm是{xi}的中值;1.482 6是为了使sm成为正态分布数据标准差的无偏估计。
2.2 基于鲁棒尺度的CDC-MVT粗差综合检测算法
2.2.1 CDC中心最短距离法。中心最短距离法(CDC)算法原理是通过计算每个采样点与数据序列中心即数据均值之间的距离,检测n/2个正常点[10]。
2.2.2 椭球多变量整理法。椭球多变量整理(MVT)算法主要是确定鲁棒协方差矩阵的一种迭代算法[11-12]。计算某次采样[X1×m]的马氏距离,见式(3)。
[dm=(X-X*)(X-X*)TS*] (3)
式中:[X*1×m]是n个采样的平均值;S*是协方差。
2.2.3 基于鲁棒尺度的CDC-MVT异常点综合检测算法。迭代前,首先用鲁棒尺度初始化MVT的马氏距离的均值和协方差,具体如下。
①采用鲁棒尺度,对原始观测数据的二维矩阵进行中心化和标准化处理,假设原始二维数据矩阵是Xi×j,i是采样点数,j是变量数,且i必须要大于j。首先,原始二维数据矩阵的每一列包含i个元素,首先计算出这i个元素的中值,记为xm;其次,利用公式计算出[sm=1.482 6 medianXi-Xm](i=1,2…,n),即原始二维数据矩阵的中值偏差绝对值的中值指标;最后,用前述步骤中已经计算出的中值xm替换公式(1)中的xi,用中值偏差绝对值的中值指标sm替换公式(1)中的s,替换后经计算可得到中心化和标准化之后的矩阵[X'i×j]。
②采用CDCm算法检测出原始数据中的n/2个正常值点。首先,算出矩阵[X'i×j]中每一列的均值,再计算其每行中每个元素与对应列均值的距离;其次,将上一步骤中算出的每一行中最大距离值定为该行中每个采样点与均值点之间的距离,则可得i个距离值;再次,从上一步得到的i个距离值中选出其中较小的n/2个距离值;最后,得到上一步i/2个距离值所对应的二维数据矩阵[Xi×j]中的i/2个采样点,即n/2个正常点,设为矩阵[Xi2×j]。
③利用MVT迭代算法计算马氏距离,从而得到原始数据中的正常值。
a.将上述方法步骤找到的n/2个正常点,初始化其马氏距离中的均值和协方差,即计算初始的均值和协方差,具体如式(4)(5)。
[X*0=1i/2k=1i/2Xk] (4)
[S*0=1i/2k=1i/2(Xk-X*0)(Xk-X*0)T] (5)
b.将以上式(4)和式(5)代入马氏距离计算式中,计算马氏距离如式(6)所示。
[d2k=(Xk-X*0)(Xk-X*0)TS*(0)](k=1,2,…,i) (6)
c.在上一步求出的i个马氏距离中选出较小的0.7i个距离值[13-14],可得与矩阵[X'i×j]相应的采样点,定为矩阵[X'(0)0.7 i×j]。
d.由矩阵[X'(0)0.7 i×j]计算下一次的均值和协方差,即式(7)(8)。
[X*(1)=10.7 ik=10.7 iXk] (7)
[S*1=10.7 ik=10.7 i(Xk-X*(1))(Xk-X*(1))T](k=1,2,…,i)
(8)
将重新计算出来的均值和协方差代入马氏距离计算式中,可得马氏距离如式(9)所示。
[d2k=(Xk-X*(1))(Xk-X*(1))TS*(1)](k=1,2,…,i) (9)
在上述[i]个马氏距离选出[0.7 i]个较小的值,同时在矩阵[X*i×j]中找出相应的采样点,记为矩阵[X'(0)0.7 i×j];
e.采用相同的方法,由矩阵[X'(0)0.7 i×j]继续计算新的均值[X*(2)]和协方差[X*(2)],并计算出新的马氏距离。在计算出的[i]个马氏距离中选出[0.7 i]个较小的马氏距离值,按照这种迭代方式不断进行计算,直到[X*(i)j-X*(i-1)j<10-5]且[S*(i)-S*(i-1)<10-5]时停止计算。式中,[X*(i)j]表示第[i]个新均值向量的第[j]个元素,[S*(i)]表示第[i]个新的协方差。
f.根据以上计算结果,即可筛选出原始数据中的正常值。
由上述过程计算得到第[i=1]次计算出的矩阵[X'(i-1)0.7 i×j]对应的矩阵[Xi×j]中的采样值,便是要检测出的正常值。
3 实例分析
以云南省澜沧江中游河段某灌溉水源工程为例,选取挡水建筑物垂线径向水平位移的各测点进行粗差去除方法验证。由于数据量较大,此处只对13#坝段1 778.25 m高程的测点PL11-3和19#坝段1 778.25 m高程的测点PL19-3两个测点进行粗差去除结果分析。选取数据的观测时间段为2018年12月5日―2019年11月19日,共323个数据测值,按时间顺序绘制过程线,分别根据主元分析法(PCA)和基于鲁棒尺度的CDC-MVT算法原理,编程并计算。
nlc202211181100
根据原始观测数据绘制过程线,如图1所示,从图1中可以看出两个测点共计8个粗大误差点,分别为PL11-3测点的2018年12月28日测值、2019年1月21日测值和2019年2月20日测值,PL19-3测点2019年9月25日测值、2019年10月4日测值、2019年10月7日、2019年10月14日和2019年10月30日测值共8个粗大误差。
基于PCA算法的粗大误差检测,将检测结果绘制过程线,如图2所示,从检测数据可以看出,平均每个测点检测后只剩180多个数据,除检测出的8个粗差外,同时也将部分正常值误判为粗差去除,如2018年12月11日、2018年12月17日、2019年10月30日等测点,可见PCA算法存在检测缺陷,即在判断出粗差点的同时,也将部分正常点误判为粗差点去除,影响了原始数据的准确性。
基于鲁棒尺度CDC-MVT算法的粗大误差检测,将检测结果绘制过程线,如图3所示,从检测结果可以看出,本方法检测结束后,除8个粗差外,其余正常数据均未被去除。
综上所述,原始观测数据中存在8个粗大误差,从检测结果过程线可以看出,CDC-MVT算法准确地检测出了原始数据中的粗大误差,结果较合理,而PCA算法虽然也检测出了异常值,但同时也将部分正常值误判为粗大误差去除了。由此,可得出以下结论。鲁棒尺度的CDC-MVT算法可较为准确地估计出正常数据的均值和协方差,从而能准确找出异常值。而传统PCA算法,虽然也找出了原始数据中的异常值,但也将部分正常值误判为异常值去除,这对大坝安全监测后续数据分析不利。因此,采用鲁棒尺度的CDC-MVT算法提高了异常值的检测性能。
4 结语
以云南省澜沧江中游河段某水电站为例,分别采用PCA算法和基于鲁棒尺度的CDC-MVT异常值综合检测算法,分别对该水电站大坝垂线径向水平位移PL11-3和PL13-3两个测点的原始位移观测数据进行粗差去除,CDC-MVT算法准确地检测出了原始数据中的粗大误差,结果较合理,而PCA算法虽然也检测出了异常值,但同时也将部分正常值误判为粗大误差去除了。结果验证了基于鲁棒尺度的CDC-MVT异常值综合检测算法的可行性和优越性。
⒖嘉南祝
[1] 顾冲时,苏怀智,王少伟.高混凝土坝长期变形特性计算模型及监控方法研究进展[J].水力发电学报,2016,35(5):1-14.
[2] 苏怀智,高建新,范振东.基于全寿命周期成本理论的水工结构维修加固决策模型[J].水利水电科技进展,2018,38(5):38-42,70.
[3] 李子阳,马福恒,华伟南.多源信息融合诊断大坝安全监测资料合理性[J].水利水运工程学报,2013(1):41-46.
[4] 王洪春,彭宏.一种基于主成分分析的异常点挖掘方法[J].计算机科学,2007,34(10):192-194.
[5] 孙梅玉.基于距离和密度的时间序列异常检测方法研究[J].计算机工程与应用,2012,48(20):11-17,22.
[6] 潘莹丽,刘展,宋广雨.基于SCAD惩罚回归的异常值检测方法[J].统计与决策,2022,38(4):38-42.
[7] 李丽敏,温宗周,王真,等.基于自学习Pauta和Smooth的地下水位异常值检测和平滑处理方法[J].西安工程大学学报,2018,32(5):604-608.
[8] JOLLIFFE I T. Principal Component Analysis [M].New York:Springer-Verlag,1986.
[9] 肖应旺,杨军,张承忠,等.CDC/MVT离群点去除的KPCA-MSVMs过程监控[J].控制工程,2013,20(3):506-512.
[10] 肖应旺,杨军,张承忠,等.统计监控建模数据预处理离群点检测算法[J].控制工程,2013,20(4):756-761.
[11] 陈国良.遗传算法及其应用[M].北京:人民邮电出版社,1996.
[12] 郭云舟,贾维敏,金伟,等.基于协方差矩阵锥化和导向矢量估计的鲁棒自适应波束形成算法[J].电光与控制,2020,27(10):57-61.
[13] LEO H C, RANDY J P, MARY B S.Exploring process data with the use of robust outlier detection algorithms [J].Journal of Process Control, 2003,13(5):437-449.
[14] 董彦佼,李泽峰,陈小海.基于马氏距离的异构网络异常大数据剔除方法[J].计算机仿真,2022,39(1):408-411,445.
nlc202211181100
转载注明来源:https://www.xzbu.com/1/view-15442320.htm