基于机器学习的哄焙铀质参数遥感反演研究
来源:用户上传
作者:王�� 连炎清 李晓娜 王璇 方焱 徐新涵
摘要:西安市哄焙铀资源丰富,但受周边市区工业化与城市化开发的影响,水质较差。近年政府对哄焙咏行了重点治理,为观测其治理效果,
以哄焙酉掠魏佣挝研究区,基于Sentinel-2卫星遥感影像,首先利用水体指数法提取了研究区河段水体,然后利用人工神经网络算法(ANN)与随机森林法(RF)构建总氮(TN)和高锰酸盐指数(CODMn)水质参数反演模型,获取了整个水域水质参数的空间分布和变化特征。研究结果表明:ANN反演结果整体优于RF,ANN水质参数反演模型在该地区有良好的适用性,且精度满足模拟要求;研究区TN和CODMn浓度值整体上分布较为均匀且波动较小,部分区域出现高值,同时TN与CODMn也呈现出一定的季节性规律,与沿岸和上游的人类活动有关。
关 键 词:水质参数; 遥感反演; 人工神经网络; 随机森林法; 汉; 灞河
中图法分类号: X832
文献标志码: A
DOI:10.16232/j.cnki.1001-4179.2022.09.003
0 引 言
传统的水质取样和监测方法过程复杂、周期长、耗费大量的时间精力,且数据的频次、时效和代表性远远滞后于环境管理与决策需求,特别是一些突发性、大范围的环境质量变化不能被及时捕捉。而遥感技术具有大范围、低成本、周期性动态监测的优势,为水质监测和研究开辟了新的途径,它克服了常规方法主观性强、监测范围小、长期趋势分析困难的缺点,并可发现一些常规方法难以揭示的污染源和污染物的迁移特征,因此在内陆水质监测中发挥着越来越大的作用。
自20世纪70年代以来,遥感开始应用到水质监测研究中[1-2],几十年来,国内外已经开展多种利用遥感数据建立水质参数反演模型以监测海洋、近岸地带以及内陆水体水质环境变化的研究,并在估算光学活性参数方面取得了一定成果,如叶绿素a(Chl-a)、有色溶解有机物(CDOM)、浊度和透明度等[3-4]。而像TP、TN等非光学活性参数通常通过与光学活性参数建立关系进行估计。Li等[5]利用新安江水库2013~2016年的实测水面TN、TP数据与准同步的Landsat8的OLI卫星影像,构建并验证了2个经验反演模型,估算了新安江水库的TN和TP与不同波段组合的相关关系,效果比较理想。黄宇等[6]利用无人机高光谱成像仪,反演了星云湖与茅洲河的水质参数浓度,构建的水质反演模型精度较高。
近年来,随着人工智能技术的发展,越来越多的研究把机器学习理论融入到水质遥感监测中。机器学习是指通过某些算法指导计算机利用已知数据来训练模型,并利用训练后的模型对新数据进行分析或者预测的过程,具有自适应、自学习、高效率和容错性等优点,且能够挖掘出数据隐藏的潜在关系和规律,在水质估测方面具有一定的优势[7]。Guo等[8]采用多种机器学习算法对小型水体的总氮、总磷浓度进行反演,比较了不同算法的反演结果,对于城市排放污水具有一定的识别作用。Pahlevan等[9]采用混合密度网络(MDN)机器学习模型,应用于内陆和沿海水域的Chl-a浓度的反演,有效提高了训练数据的全局代表性。Hartling等[10]应用密集卷积网络(DenseNet)算法,融合多源数据集遥感图像识别城市环境中的优势树种,该方法有效提高了城市优势树种的分类准确率。李怡静等[11]基于梯度提升决策树算法构建了水质反演模型,该方法反演各类水质的精度较高且速度较快,具有实用价值。李玉翠等[12]在武汉市东湖采用多种经典机器学习算法建立了水质参数与影像反射率间的定量反演模型,并对东湖富营养化程度进行了评价。
哄焙酉掠魏佣挝挥谖靼彩哄鄙态区,该区是首个西北地区国家级水生态系统保护与修复示范区。该地区水源较为丰富,但受到周边市区早期工业化与城市化开发的影响,水质较差,并且受早期挖沙采石影响河道破碎化严重。近些年经过治理,水环境状况有了很大改善,但仍需要长期关注且实时监测,具有典型性。以该区域的哄焙雍佣挝研究区,选取水体中TN、CODMn两个水质参数,采用人工神经网络和S机森林两种机器学习方法,构建水质遥感反演模型,探究水质参数的时空演化规律。研究成果可为遥感技术监测水质提供借鉴,对于水环境质量提升具有重要的意义。
1 研究区概况及数据源
1.1 研究区概况
本研究以进入西安市城区的汉渝焙酉掠魏佣巫魑研究区域,包括汉雍佣危ㄌ一ㄌ豆园)和灞河河段(灞桥湿地生态公园)及汇合后至入渭口的河段,如图1所示。该区域年均降水量小于700 mm,且年内分布不均,7~10月降水量占全年的60%以上。研究区域所在的哄鄙态区是陕西省经济发展的重要依托,该区承接了上游的农业面源污染,且河段两岸经济和工业发达,分布有多个雨水排放口,导致河流水体出现一系列水环境问题,氮素(N)浓度超标、水质恶化等。
1.2 数据采集及处理
收集与水质参数采集时间一致的Sentinel-2卫星遥感数据用于提取水体和水质遥感反演的输入数据,水质样点实测数据用于验证模型精度,以下介绍各数据获取及处理过程。
1.2.1 Sentinel-2数据及预处理
Sentinel-2A卫星于2015年6月23日发射,搭载的有效荷载为多光谱成像(multispectral instrument,MSI)。MSI传感器有13个波段,分为可见光、近红外和短波红外3部分,中心波长范围为490~2 190 nm。Sentinel-2A卫星的优势在于更短的访问周期和高分辨率,能够更精确地刻画河道水体。本研究在构建人工神经网络反演模型时,需要卫星影像数据和水质采样点时间相近,两次采样时间分别为2019年12月与2020年7月,获取研究区相应时间段的Sentinel-2A卫星数据中的L1C影像数据。Sentinel-2A卫星传感器的光谱相关参数如表1所列。
nlc202210271140
1.2.2 提取水体范围
遥感水体提取的发展历经了几十年,经历了从目视解译到光谱特征提取,自动分类再到光谱与空间信息结合等多个阶段。多波段谱间关系法综合利用了多个波段的光谱信息,提取效果往往要比单波段阈值法要好[13]。因此,本文采用多波段方法提取水体,综合采用归一化水体指数NDWI、改进的归一化水体指数MNDWI、增强水体指数EWI这3种水体指数(见表2),增强水体信息同时抑制其他非水体信息[14],融合不同水体指数的水体提取优势,利用ENVI5.1软件中波段运算工具进行各水体指数计算,再对其灰度进行分割,确定最佳阈值,提取各采样时间段的水体信息。
Sentinel-2卫星的B3波段为绿波段(Green),B8、B8A波段为近红外波段(NIR),未设置中红外波段。但是水体在B12波段(中心波长2 202.4 nm,半高宽242 nm)的光谱反射特性与在中红外波段的反射特性相似,故本文用B12波段代替中红外波段(MIR)参与波段计算。提取的水体如图1所示。
1.2.3 水质数据采样及测定
分别在2019年12月(枯水期)和2020年7月(丰水期)选取哄焙酉掠味蔚8个断面的样点数据,采样过程严格按照HJ/T 91-2002《地表水和污水监测技术规范》[15]有关要求执行。选择样点TN、CODMn两个水质参数,测定时需添加H2SO4调节。水质参数的测定严格按照GB 3838-2002《地表水环境质量标准》[16]执行,数据精度和准确度均符合国家水质检测方法标准要求。其中,TN采用流动分析仪测定,CODMn采用酸性法测定。
2 研究方法
2.1 构建人工神经网络模型
人工神经网络(ANN,Artificial Neural Network)算法是一种强大的分类和回归算法,其灵感来自于人脑的神经结构[17]。人工神经网络以多个神经元为隐藏咏输入数据与输出数据进行连接,从而挖掘出输入和输出数据之间的潜在关系。目前,人工神经网络在许多研究领域均得到广泛应用[18-19],比如生物记忆、模式识别、图像处理、卫星降水量估算、水库调度。
本文构建的ANN模型将各水质样点的B2~B8A波段像元值作为模型输入,输出模拟的水质参数浓度值,其中水质浓度实测值用于率定和检验。水质浓度实测值样本数量为8个,该模型的隐藏层为单层,隐藏层神经元节点数量为8个(见图2)。基于Platypus库调用NSGA-Ⅱ算法优化ANN模型内部权重参数,将算法中种群规模设置为100,评价次数为5万,二进制交叉算子(SBX)取值为(1.0,15.0),多项式变异概率(PM)取值为(0.125,20.0),完成反演过程。
2.2 构建随机森林模型
为了充分检验ANN模型的拟合效果,选取随机森林(Random Forests,RF)模型作为比较基准。随机森林算法是一种通过集成大量的决策树来改进分类和回归树(CART,Classification and Regression Tree)的方法[20]。在随机森林回归中,引入的随机森林算法将自动创建随机决策树群,通过从训练数据集中选择随机变量集,并采用随机有放回抽样的方法来构建每棵树[21],最后通过对所有树的均衡化来计算实测值的估测值。本文基于深度学习框架Tensor Flow构建RF反演模型,涉及的参数包括最大决策树数量NE、决策树最大深度MD和最大特征数MF,并采用试错法确定参数取值为NE50-MD25-MF6。
2.3 留一法交叉验证水质参数精度
为了验证求解出来水质指标(TN、TP、CODMn)的代表性和适用性,引入留一法交叉验证(LOOCV)进行论证[22]。留一法交叉验证已经被证明能够有效评价机器学习模型的归纳性特征,并且其结果是几乎无偏的,且能够充分利用所有样本,适用于样本数量较小的情景。该方法具体步骤为:从样本数据集中选择一个样本数据作为验证数据;然后使用剩下的样本数据训练模型,并用最先被排除的那个样本数据来验证模型精度,如此重复8次(样本个数);最终提取8个样本的预测结果进行统计分析。本文的采样点数量为8个,交叉验证K折数为8。
2.4 评价指标
为评价2种方法反演精度,引入决定系数(R2)与均方根误差(RMSE)对估测模型进行精度检验。计算公式为
R2=1-ni=1Yobs,i-Yfore,i2ni=1Yobs,i-Yobs,i2(1)
RMSE=ni=1Yobs,i-Yfore,i2n(2)
式中:Yobs,i和Yfore,i分别为水质参数的实测值和估测值;Yobs表示实测值的平均值;n为测定样本数。决定系数R2在0~1之间,值越大,模型预测精度越高;RMSE值越小,模型的精度水平越高。
3 研究结果
3.1 ANN模型与RF模型结果与分析
选择卫星遥感数据B2、B3、B4、B5、B6、B7、B8、B8A波段及实测水质数据建立水质反演模型。表3~4为反演结果及精度。
应用留一法交叉验证法得到ANN模型8个样点的评价指标值(见表3),得到2019年12月TN、CODMn的平均均方根误差分别为0.54和0.32,平均决定系数分别为0.79和0.80。由于本文选择的样本量较少,在做交叉验证时可能存在较大的泛化误差,分别计算了各评价指标的标准差。均方根误差的标准差分别为0.09和0.08,决定系数的标准差分别为0.05和0.08。2020年7月TN、CODMn的平均均方根误差分别为0.08和0.26,平均决定系数分别为0.99和0.99,均方根误差的标准差分别为0.02和0.14,决定系数的标准差分别为0.001和0.001。各个评价指标的标准差较小,表明样本量少并没有带来太大的泛化误差,模型结果较为可靠。
nlc202210271140
RF模型各个样点的评价指标值如表4所列。2019年12月TN、CODMn的平均均方根误差分别为0.62和0.50,决定系数分别为0.65和0.48,均方根误差的标准差分别为0.12和0.11,决定系数的标准差分别为0.14和0.22。2020年7月TN、CODMn的平均均方根误差分别为0.8和4.63,决定系数分别为0.53和0.73,均方根误差的标准差分别为0.15和1.18,决定系数的标准差分别为0.17和0.15。各个评价指标的标准差较小,表明样本的泛化误差较小,模型结果较为可靠。
对ANN和RF两种模型的指标评价结果分析可知:ANN模型估算得到的水质参数结果优于RF模型,ANN模型在本文研究区域体现出了优于RF模型的估算性能。因此,本文后续在进行水质参数浓度空间分布时采用ANN估算的水质参数。
3.2 各水质参数空间分布特征
利用ANN模型验证后的模型参数,输入水体各波段数值,得到了水体范围内的水质参数浓度空间分布,如图3~4所示。
整体来讲,跨河建筑物浓度总体上比周围河段高,世博园的河段CODMn与TN相较于上桥村河段含量较低,上桥村附近河段浓度高于中间河段,这是由于受到点源排放口的影响。
在图3中,CODMn在2019年12月浓度为2.96~5.62 mg/L,平均值为3.46 mg/L,2020年7月浓度为3.24~13.93 mg/L,平均值为6.64 mg/L。2020年7月浓度值高于2019年12月。从空间分布来看,浓度高值出现在灞河上桥村附近河段、哄焙咏换愦及哄焙踊愫虾笄睾捍蟮牢鞫未Γ这些地方是人口密度较大和工业分布较为集中区域。2020年7月浓度值高于2019年12月,主要原因是CODMn浓度值的变化主要反映的是有机物和生活污染问题,哄焙又芪Х植加写罅康木用袂和雨污排放口,夏季用水量增加,城市生活污水排放入水体,导致7月浓度整体上高于12月。
如D4所示,TN在2019年12月浓度为5.30~7.77 mg/L,平均值为5.74 mg/L,2020年7月浓度为4.23~9.00 mg/L,平均值为5.42 mg/L。2019年12月TN值高于2020年7月,但2020年7月浓度变化幅度大于2019年12月,这是因为有几个区域在7月出现高值,在灞河上桥村附近河段、哄焙咏换愦Α哄焙踊愫虾蟀绿逅淼赖角睾捍蟮牢鞫魏拥兰叭胛伎谟野洞Γ原因是这些地方城市生活污水和工业企业废水大量排放,且附近分布有多个排污口,虽然污水经处理后排放,但仍有大量污染物进入水体。
此外,河流周围还有农业和农村生活污水排放源,接纳来自于农田和养殖业产生的污水,降水的季节差异性导致12月整体浓度值高于7月[23]。
汉雍佣TN浓度值呈现出12月整体上高于7月,同样是由于大量居民日常生活的污水和工业生产的废水在降水的季节性变化下引起的[24]。
4 结 论
本研究以哄焙酉掠魏佣挝研究河段,采用人工神经网络和随机森林两种机器学习算法构建水质参数遥感反演模型,对水体中的TN、CODMn两个水质参数进行遥感反演研究,主要得到了以下结论:
(1)本文基于Sentinel-2卫星遥感影像数据,融合多种水体指数法的优势,更准确地提取了研究区河道水体。
(2)采用人工神经网络算法与随机森林算法,根据实测水质样点参数CODMn与TN,构建了水质反演模型,经过对比分析,人工神经网络模型在该地区具有良好的适用性。
(3)将ANN模型应用于整个河段水体,得到水质参数CODMn和TN的空间分布和变化特征,整体上水质参数波动较小,空间分布较为均匀,部分区域出现高值,可能与人类活动有关。此外,CODMn与TN也呈现出季节性规律,这与人类活动的季节性有关。当前,河流在遥感领域受到的关注相对较少,部分原因是河流空间尺度较小(<100 km)和水质参数变动范围大。而长江水系水量较为丰沛,本文构建的水质监测模型对于长江流域水环境实时监测具有重要的参考价值,对于水环境质量提升具有借鉴意义。
参考文献:
[1] RITCHIE J C,SCHIEBE F R,MCHENRY J R.Remote sensing of suspended sediments in surface waters[J].Photogrammetric Engineering & Remote Sensing,1976,42(12):1539-1545.
[2] HOLYER R J.Toward universal multispectral suspended sediment algorithms[J].Remote Sensing of Environment,1978,7(4):323-338.
[3] HOU,X J,FENG L,DUAN H T,et al.Fifteen-year monitoring of the turbidity dynamics in large lakes and reservoirs in the middle and lower basin of the Yangtze River,China[J].Remote Sensing of Environment,2017,190:107-121.
[4] SHAHZAD M I,MERAJ M,NAZEER M,et al.Empirical estimation of suspended solids concentration in the Indus Delta Region using Landsat-7 ETM+ imagery[J].Journal of Environmental Management,2018,209:254-261.
nlc202210271140
[5] LI J,HU C,SHEN Q,et al.Recovering low quality MODIS-Terra data over highly turbid waters through noise reduction and regional vicarious calibration adjustment:a case study in Taihu Lake[J].Remote Sensing of Environment,2017,197:72-84.
[6] 黄宇,陈兴海,刘业林,等.基于无人机高光谱成像技术的河湖水质参数反演[J].人民长江,2020,51(3):205-212.
[7] PETERSON K T,SAGAN V,SLOAN J J.Deep learning-based water quality estimation and anomaly detection using Landsat-8/Sentinel-2 virtual constellation and cloud computing[J].GIScience & Remote Sensing,2020,57(4):510-525.
[8] GUO H W,HUANG J J,CHEN B,et al.A machine learning-based strategy for estimating non-optically active water quality parameters using Sentinel-2 imagery[J].International Journal of Remote Sensing,2021,42(5):1841-1866.
[9] PAHLEVAN N,SMITH B,SCHALLES J,et al.Seamless retrievals of chlorophyll-a from Sentinel-2 (MSI) and Sentinel-3 (OLCI) in inland and coastal waters:a machine-learning approach[J].Remote Sensing of Environment,2020,240:111604.
[10] HARTLING S,SAGAN V,SIDIKE P,et al.Urban tree species classification using a worldview-2/3 and LiDAR data fusion approach and deep learning[J].Sensors,2019,19(6):1284.
[11] 李怡静,孙晓敏,郭玉银,等.基于梯度提升决策树算法的鄱阳湖水环境参数遥感反演[J].航天返回与遥感,2020,41(6):90-102.
[12] 李玉翠,周正,彭漪,等.基于机器学习的东湖富营养化研究[J].人民长江,2018,49(17):12-17.
[13] 毕海芸,王思远,曾江源,等.基于TM影像的几种常用水体提取方法的比较和分析[J].遥感信息,2012,27(5):77-82.
[14] 王帆,李崇贵,马婷,等.一种改进的遥感影像水体信息快速提取方法[J].人民长江,2021,52(6):223-228.
[15] 国家环境保护总局.地表水和污水监测技术规范:HJ/T 91-2002[S].北京:中国环境科学出版社,2002.
[16] 国家环境保护总局.地表水环境质量标准:GB 3838-2002[S].北京:中国环境科学出版社,2002.
[17] HOPFIELD J J.Artificial neural networks[J].IEEE Circuits & Devices Magazine,1988,4(5):3-10.
[18] 金龙,况雪源,黄海洪,等.人工神经网络预测模型的过拟合研究[J].气象学报,2004,62(1):62-70.
[19] 范路,陆云才,陶风波,等.人工智能在局部放电检测中的应用(二):模式识别与状态评估[J].绝缘材料,2021,54(7):10-24.
[20] BREIMAN L.Random forests[J].Machine Learnings,2001,45(1):5-32.
[21] MUTANGA O,ADAM E,CHO M A.High density biomass estimation for wetland vegetation using worldview-2 imagery and random forest regression algorithm[J].International Journal of Applied Earth Observation and Geoinformation,2012,18,399-406.
[22] CAWLEY G C,TALBOT N L C.Fast exact leave-one-out cross-validation of sparse least-squares support vector machines[J].Neural Networks,2004,17(10):1467-1475.
[23] 宋扬,周维博,马亚鑫,等.50年来灞河流域降水变化特征分析[J].长江科学院院报,2017,34(7):12-18.
[24] 杜麦,小威,王颖.基于多元统计分析的哄焙铀质污染特征研究[J].华北水利水电大学学报(自然科学版),2017,38(6):88-92.
nlc202210271140
(辑:刘 媛)
Research on remote sensing inversion of water quality parameters in Chanhe River and Bahe River based on machine learning
WANG Zhe1,LIAN Yanqing2,LI Xiaona2,WANG Xuan1,FANG Yan1,XU Xinhan1
(1.Xi′an Institute for Innovative Earth Environment Research,Xi′an 710061,China; 2.Institute of Earth Environment,Chinese Academy of Sciences,Xi′an 710061,China)
Abstract:
The Chanhe River and Bahe River in Xi′an City has abundant water resources,however,influenced by the surrounding industrialization and urbanization,the water quality is poor.In recent years,the local government has paid many efforts on the water quality improvement.In order to evaluate the control effect,by selecting the downstream section of Chanhe River and Bahe River as study area,we firstly extracted water bodies based on Sentinel-2 satellite remote sensing images using the water body index method.Then,water quality inversion model of total nitrogen(TN) and permanganate index(CODMn) was constructed using artificial neural network algorithm(ANN) and random forest method(RF),and the temporal and spatial characteristics of these two parameters were finally analyzed.The results showed that the ANN had better performance than RF in inverting water quality parameters,and the ANN had well applicability in the study area with acceptable precision.The distribution of TN and CODMn values was relatively uniform with small fluctuation however some high values existed in local area.Meanwhile,both TN and CODMn values presented a significant seasonal trend,which was closely related to the human activities along the riverbank and upstream reaches.
Key words:
water quality parameters;remote sensing inversion;artificial neural network;random forest method;Chanhe River;Bahe River
nlc202210271140
转载注明来源:https://www.xzbu.com/1/view-15441509.htm