一种不确定NNSB-OPTICS聚类算法在滑坡危险性预测研究
来源:用户上传
作者:杨斌
摘要:在应用现有的OPTICS-PLUS聚类算法于滑坡危险性预测的过程中,降雨等不确定因素直接影响了计算结果的准确性。为了整体提升滑坡危险性预测的准确率,文章提出了基于OPTICS-PLUS算法的一种不确定NNSB-OPTICS聚类算法。前期对OPTICS-PLUS聚类算法进行计算方式优化,总体提高计算过程的效率;中期依据云模型理论和EW型距离公式,与降雨量数据的分布进行结合,导出EH型距离公式,提高不确定数据的准确率。后期通过仿真实验以及对延安市某区滑坡危险性预测的实际应用结果(滑坡预测精度达到89.8%),证明了该不确定NNSB-OPTICS聚类算法的精准度,具有较高的实际应用价值和可行性。
关键词:滑坡危险性预测;不确定数据处理:NNSB-OPTICS聚类算法
中图分类号:P642.2
文献标识码:A
文章编号:1001-5922(2020)12-0045-04
0 引言
山体滑坡是发生频次最高、分布范围最为广的地质灾害之一,给我国居民的生产生活带来不便,严重阻碍了国民经济发展[1]。滑坡危险性预测受到了具有复杂性和不确定性数据(山坡结构、降雨量、地形地貌等)的影响,给计算工作带来了障碍。OPTICS-PLUS聚类算法是一种基于密度的聚类算法,但其计算过程耗时长,且难以避免密度临界值的不精准性和计算者的主观性,所以在大规模滑坡数据处理方面还存在不足。本文依据OPTICS-PLUS聚类算法对滑坡危险性预测数据的计算进行了优化,衍生出一种专门应用于地质滑坡危险性预测环节的不确定NNSB-OP-TICS算法[2-3]。
1 不确定NNSB-OPTICS聚类算法
1.1 NNSB-OPTICS聚类算法设计
NNSB-OPTICS聚类算法可将收集到的数据划分为不同的数据队列,免去了计算者人为划分密集区和分散区的繁杂步骤,节约了在迭代扩张过程对数据进行排序和反复计算的时间成本,详情如图1所示。
NNSB- OPTICS算法优化了oPTIcs算法与OP-TICS-PLUS算法的数据扩张方式,在数据扩张时,对已扩张的数据进行筛减,再根据GPNP指针进行检索,所以,NNSB-OPTICS算法提高了了数据运算的效率。
1.2 不确定数据处理
降雨是造成山体滑坡的主要因素之一,但在滑坡危险性预测过程中依旧无法对降雨量的取值范围进行精准的划分。NNSB-OPTICS聚类算法在较为分散的数据处理中应用性较强,基于此,依据云模型理论和EW型距离公式,可得出EH型距离公式,对相邻地区的降雨量a (a=1,2,3…)进行不确定降雨量数据(xq)取值,以建立正态云模型数字特征[4]。期望E(x)和超熵He的运算公式如下所示:
在公式(1)、(2)中q为云期望方程的平均数;t为云期望曲线的方差;tmean为t的平均值。
将式(1)和式(2)导入EW型距离中,用He代替不确定数据的取值区间,可得出EH型距离公式,详情如下:
当He等于0时,可通过EH公式对距离进行计算。He公式主要应用于分散型数据集、不确定性数据集。
2 实验前期准备
实验过程中的数据处理均在Windowsl0的操作计算机中运行。数据库平台建立于Oracle Database12c,滑坡实验数据皆是从ArcCIS10.3软件中取得[5]。
2.1仿真实验
在实际应用前,为了证明不确定NNSB-OPTICS聚类算法的可行性,分别与基于密度的聚类算法的3种改进法(OPTICS、OPTICS- PLUS、EOPTICS)在UCI数据集中进行了对比实验。实验所采用的UCI数据集特性如表1所示,主要测试内容为:聚类算法结果的准确性、高效性、稳定性。
主要采取Micro-Precision标准对实验结果进行分析判定,计算公式如下:
W为数据集样本总数,b为聚类数量,ch为聚类样本数量。MP的取值范围在[0,1]之间,取值数值越进于l,聚类精准度就越高。在仿真实验前通过OP-TICS-PLUS算法设定核心点数为GU和相邻半径点数集{GU- 0.15,GU, GU+ 0.15},最后对核心点数和相邻半径点数集实行数据整合[6-7]。在集合中分别挑取10组参数,每组参数运行10次,共计得到100次的实验运算结果,选择一个最小值,选定一个最大值,并对实验数据均值进行计算,实验结果均值计算公式如下所示。D为重复的实验次数=10,OPTICS、EOPTICS、OPTICS-PLUS、NNSB-OPTICS四种算法的运算时间以及数据结果对比如表2、3所示。
由表2可看出,4种运算在UCI数据集的计算中,NNSB-OPTICS的平均数值计算结果相较其他3个算法更具精准度。从最小值和最大值数据差的对比中可以看出,NNSB-OPTICS算法聚類结果稳定性较好。
由表3可得知,相比OPTICS、EOPTICS、OP-TICS-PLUS这3种聚类算法,NNSB-OPTICS算法的运算过程更为节约时间成本,同时可避免人为因素对计算结果的影响。
3 实验应用
3.1实验数据来源及数据预处理
对延安市A区进行滑坡危险性预测研究,利用嵌入式GIS软件,将实验地区划分为5672900个等大网格单元(单个单元尺寸为:6mx6m),将5672900个单元网格导人1:5000的DEM中绘制专题图,从而进一步获取实验地区坡向、坡高、坡度等数据[8-9]。参与实验的数据来源如下:
1)岩土结构数据:采用遥感影像处理软件(ER-DAS IMACINE)在1:10000的地质图中运用Normal-ization差值计算法获取。 2)降雨量数据:对已发生滑坡的地区前后14d降雨量进行统计,对得到的原始数据首先进行预处理;其次,删除对滑坡影响可忽略不计的数值项,主要以坡度、坡高、坡向等8个属性项最为本次实验聚类特征属性;最后,通过数据预处理,得到数据属性特征如表4所示。
3.2实验评估标准
Kappa系数可对实验结果进行精准率较高的评估,可具体反映出实验结果的优势。Kappa系数计算公式如下所示。
3.3 滑坡预测精度评价分析与比较
通过公式(1)、公式(2)、公式(3)对降雨量相似值进行计算。在2种算法中,对降雨量用数值替代,采用Euclid Distance进行相似度计算。最终按照NNSB-OPTICS算法(I)、不确定NNSB-OPTICS算法(Ⅱ)分类,得到表5所示的滑坡危险性预测统计结果。
通过计算可知本文提出的不确定NNSB-OPTICS聚类算法计算结果的精准率远高于NNSB-OPTICS聚类算法4.4%,说明此方法在滑坡预测中具有可行性。且不确定NNSB-OPTICS聚类算法的Kappa系数更接近于1,表明在针对滑坡危险性预测环节进行同一数据集进行处理时,利用不确定NNSB-OPTICS聚类算法所得到的滑坡预测结果与利用NNSB-OPTICS聚类算法所得结果相比,与实际值的差异更小[10]。原因在于,在建立不确定NNSB-OPTICS滑坡预测模型时,与EH型距离公式进行了充分结合,针对不确定降雨量也刻画了更为精准的的分布范围,整体提高了对延安市A区滑坡危险性预测的精准率。
4 结语
综上所述,根据OPTICS-PLUS算法,结合EW型距离公式和云模型理论提出EH型距离公式,解决了地区降雨量分布不能实时刻画的难点。本文所得结论表明,不确定NNSB-OPTICS聚类算法计算结果的精准率远高于NNSB-OPTICS聚类算法4.4%,具有明显更加精准的计算结果;同时,利用不确定NNSB-OP-TICS聚类算法计算结果与实际值差异更小,更加接近实际的滑坡危险性数值。
参考文献
[1]周琪,许强,周小棚,等.突发型滑坡危险范围预测方法研究——以黑方台焦家6#滑坡为例[J].灾害学,2020,35(01):216-221.
[2]吴博,赵法锁,段钊,等.基于熵权的属性识别模型在陕西土质滑坡危险度评价中的应用[J].灾害学,2018,33(01):140-145.
[3]缪亚敏,朱阿兴,杨琳,滑坡危险度制图精度评价指标的有效性研究[J].自然灾害学报,2017,26(02):115-122.
[4]贾玉跃,高毓山,矿山开采诱发边坡形变规律分析及控制对策[J].金属矿山,2017( 06):156-159.
[5]缪亚敏,朱阿兴,杨琳,等,滑坡危险度制图中一种新型的负样本采样方法[J].地理与地理信息科学,2016,32(04):61-67+127.
[6]缪亚敏,朱阿兴,杨琳,等,滑坡危险度评价对BCS负样本采样的敏感性[J].山地学报,2016,34 (04):432-441.
[7]缪亚敏,朱阿兴,杨琳,等,一种基于地理环境相似度的滑坡负样本可信度度量方法[J].地理科学进展,2016,35(07):860-869.
[8]宋威,李宏,安全監测在锦屏二级水电站滑坡体应急救援与抢险中的应用[J].水利水电技术,2015,46(07):26-27+31.
[9]陆盟,张洁,文思成,地震作用下滑坡水平运动距离概率预测模型[J].防灾减灾工程学报,2020,40(01):92-99.
[10]李明波,陈平,陈植华,等,基于多模块的松散土质滑坡灾害综合预警模型研究[J].西北师范大学学报(自然科学版),2020,56(02):94-100.
转载注明来源:https://www.xzbu.com/1/view-15381289.htm