基于相关性分析的配电网多源数据质量提升方法
来源:用户上传
作者:蒙小胖, 孙常浩, 蔡雷鸣, 施广德, 金舒
摘 要: 智能配电网采集数据来源广、数据质量较差,价值密度低。因此首先对配电网中各类系统采集的数据应用K-means聚类算法进行特征提取,结合局部异常因子(LOF)算法进行异常检测,筛选出异常数据;随后根据数据的多维特征运用相关性分析结合数据特征对异常数据进行修正;最后通过实际工程应用,验证多源数据质量提升方法的数据修正效果。
关键词: 数据质量; 关联分析; 智能配电网; 聚类算法; 多源数据
中图分类号:TP3 文献标识码:A 文章编号:1006-8228(2022)06-01-05
A quality improvement method of multi-source data in distribution network
based on correlation analysis
Meng Xiaopang1, Sun Changhao2, Cai Leiming2, Shi Guangde2, Jin Shu2
(1. Shaanxi Regional Electric Power Group Co., LTD, Baoji, Shaanxi 721000, China; 2. Guodian Nanjing Automation Co., Ltd.)
Abstract: The data collected by distribution network has the characteristics of wide sources, poor data quality and low value density. Therefore, a strategy for improving the quality of multi-source data in the intelligent distribution network is proposed. Firstly, the K-means clustering algorithm is applied to the data collected by various systems in the distribution network for feature extraction, and the local outlier factor (LOF) algorithm is used for abnormal detection to screen out abnormal data. Then, according to the multi-dimensional characteristics of the data, the abnormal data is corrected by correlation analysis combined with the data characteristics. Finally, the effect of multi-source data quality improvement algorithm is verified by practical engineering application.
Key words: data quality; correlation analysis; intelligent distribution network; clustering algorithm; multi-source data
0 引言
智能配网信息化和智能化的程度不断提升,配电网采集数据逐步呈现多源、异构的大数据特征[1]。对海量多源数据进行整合,可以为配电网运行态势感知[2],运行状态综合评价提供重要数据支撑。
配电网数据采集终端由于数量多、分布广并且部分终端环境恶劣,工况复杂,在采集和通信过程中经常发生数据丢失或异常现象[3]。异常数据严重影响数据挖掘分析的效率,对缺失或者异常数据进行统计分析会使得结果与实际值差别较大,影响预测精度和运行控制决策的准确性[4]。因此,如何对配电网采集的多源数据进行异常检测和数据预处理是配电网大数据分析的前提和基础。
近年来,对于大数据技术在配电网中应用已有很多研究成果。文献[5]对大数据在电网中的应用场景进行了总结。文献[6]提出一种基于大数据分析的配电网态势感知方法,通过对配电网运行历史数据进行分析预测电网运行的趋势。文献[7]运用大数据技术对配电网运行历史数据进行挖掘和评估,实现配电网的风险预警。但研究成果大多集中在数据分析层面,对底层多源数据融合以及数据质量的提升研究较少。对于配电网的大数据分析应用而言,数据的多源融合是基础,数据质量的好坏,对数据挖掘效率和结果准确性有重要影响。文献[8]采用插值法对电网采集数据中缺失较少且变化较为平缓的数据进行修正,取得较好效果;文献[9]提出一种基于数据动态治理和修复策略的配电网数据质量提升管理平台架构。文献[10]提出基于自适应模糊神经网络模型对风电缺失数据进行填补,取得较好效果,但不适用于大面积数据缺失。以上对数据质量提升的研究大多基于某一维度或者某一方法对数据异常进行修正,应对大数据量和连续、大面积的异常数据处理较为困难。配电网中各个系统采集数据之间关联性较强,其多维关联性特征不可忽视。因此,本文根据配电网数据的多维相关性特点,采用聚类算法和相关性分析结合的方法提升数据修正的效率和效果,从而提升配电网整体数据质量,成为大数据分析和应用的有力支撑。
1 多源数据质量提升整体架构
多源、异构的数据场景给数据集成带来困难并且使得信息系统产生数据质量问题。针对这些问题,本文提出一种多源融合数据质量提升架构如图1所示。
nlc202206221502
转载注明来源:https://www.xzbu.com/8/view-15434285.htm