您好, 访客   登录/注册

基于工业实时数采数据缺失值填充的研究及实现

来源:用户上传      作者:李达,许仁杰,刘智宇,赵晨,马洁,袁湘云

  摘要:工业大数据在生产实际数采的过程中,存在的实时数据频繁闪断、数据异常跳变等风险,严重影响现有设备的控制效能及信息系统的分析结果,传统意义上采取增加传感器进行多级验证的方法存在信道干扰噪声加大带来的数据缺失值无法有效满足的问题。文章将目前针对此类的最有效的多元回归分析智能诊断建模、SVM智能诊断建模进行了分析,发现其对应的R2、MSE、RMSE均无法解决现有存在的问题,通过新建一套基于ISODATA的预测算法,经实时预测结果,其对应的R2、MSE、RMSE均能满足实时数采数据填充的要求,并将预测的值作为工业实时数采数据缺失值的填充。经训练迭代200次后,MSE为0.013、RMSE为0.008。经实践可知,本算法可以实现工业实时数采数据缺失值的填充。
  关键词:实时数采;缺失值;均方根误差
  中图分类号:TP311 文献标识码:A
  文章编号:1009-3044(2022)32-0055-03
  1 工业大数据在数采过程中存在的痛点
  现阶段的烟草生产一线,已从传统意义上的机械化、自动化向智能化、智慧化进行发展,尤其是工业互联网的进一步推广,现阶段已不仅仅是传统意义上的RS232、RS485、Profinet、Profibus、Profibus-DP、PLC子网、Wincc中控网络等内容[1]。在此基础上,新增了物联网、NBIoT网络、工业以太网等网络,随着设备数量、传感器数量的海量剧增,传统意义上对应的数采协议收到工业现场干扰噪声信号的影响将逐渐加大,造成实时数据频繁闪断、数据异常跳变等风险,严重影响现有设备的控制效能及信息系统的分析结果[2]。例如:
  1.1数据频繁闪断
  如图1所示,卷包机组在数采的过程中出现了多次数据频繁闪断的情况。
  1.2数据异常跳变
  如图2所示,制丝的叶丝在数采的过程中出现了多次数据频繁闪断的情况。
  目前采用的方法是加大传感器数量的校验,加装多级校验机制,但由于设备数量的增多,本身设备检测有5%的误差,数量的增加会导致误差的累计,且如果过程中,个别传感器出现差错,将导致数据错误的“蝴蝶效应”,使得检测校验效能失效[3]。
  综上所述,目前在运用工业大数据进行数采的工业企业中,因数据量巨大、通信协议复杂多变、传感器数量级剧增,导致工业大数据在数采过程中因信道干扰造成数据频繁闪断、数据异常跳变的问题[4]。该问题目前采用传统手段无法解决,是一个所有运用工业大数据企业均需解决的共性问题[5]。
  2 基于该类痛点目前的主要做法及效果分析
  针对此类问题,目前已知的解决方案有如下两种,分别是基于多元回归分析、SVM智能诊断建模的解决方法来解决[6]。
  针对以上两类方法,为验证是否能解决以上存在的问题,使用在预测领域常用的评价指标:均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和判定系数([R2])来衡量方法的有效性结果[7]。
  现将如下两种方式进行说明:
  2.1 多元回归分析建模
  2.1.1建模过程
  利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一。因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归。
  2.1.2 基于多元回归分析的智能诊断建模分析结果
  通过运用MSE、RMSE、[R2]对多元回归分析建模的情况进行分析,其效果如表1所示:
  结论:通过分析可以看出,目前基于多元回归分析的智能诊断建模,因T-Pre时长为192s,MSE为0.535>0.05,RMSE为0.374>0.05,[R2]为92%<95%。因此,该方案对于现有存在的工业数据频繁闪断、数据异常跳变的问题有效性不足。
  2.2 SVM智能\断建模
  2.2.1建模过程
  从本质上看,数据频繁闪断、数据异常跳变的识别是属于二分类的范畴,所以在建模的过程中,为了提高分类器的处理速度及精度,建立了5个二分类SVM模型。二分类SVM智能诊断模型的建模过程,如图3所示:
  2.2.2 基于SVM的智能诊断建模分析结果
  通过运用MSE、RMSE、[R2]对SVM智能诊断建模的情况进行分析,其效果如表2所示:
  结论:通过分析可以看出,目前基于SVM的智能诊断建模,因T-Pre时长为154s,MSE为0.219>0.05,RMSE为0.137>0.05,[R2]为94%<95%。因此,该方案对于现有存在的工业数据频繁闪断、数据异常跳变的问题有效性不足。
  综上所述:目前已知的基于多元回归分析智能诊断建模的解决方法、SVM智能诊断建模解决方案无法有效解决工业大数据运用过程中数采数据出现的频繁闪断、数据异常跳变的问题。
  3 基于ISODATA算法解决痛点的具体实现
  由于目前已知的基于多元线性回归智能诊断建模的解决方法、SVM智能诊断建模解决方案无法有效解决工业大数据运用过程中数采数据出现的频繁闪断、数据异常跳变的问题。为解决以上存在的问题,经研发,拟采用ISODATA(迭代自组织数据分析)算法来解决,该算法有效解决了传统的K-Means算法在运算过程中参数迭代对于高维度无法集中的问题,实现了对现有数采数据的聚类、预测、分析,具体做法如下:
  3.1 ISODATA智能诊断建模

nlc202301131402



  建模过程:
  ①选取不同的参数指标,以将N个数据样本按指标分配到各个聚类中心中去。
  ②计算各类中每个样本的距离指标函数。
  ③-⑤按给定的要求,将前一次获得的聚类集进行分裂和合并处理(④为分裂处理,⑤为合并处理),获得新的聚类中心。
  ⑥重新进行迭代运算,计算各项指标,判断聚类结果是否符合要求。经过多次迭代后,若结果收敛,则运算结束。
  3.2 基于ISODATA分析的智能诊断建模分析结果
  通过运用MSE、RMSE、[R2]对ISODATA智能诊断建模的情况进行分析,其效果如表3所示:
  结论:通过分析可以看出,ISODATA的智能诊断建模,因T-Pre时长为27s,MSE为0.0.032<0.05,RMSE为0.019<0.05,[R2]为98%>95%。因此,该方案可以有效解决现有存在的工业数据频繁闪断、数据异常跳变的问题。
  将该方法用于工业大数据实时数据数采缺失值填充,基于如图4的算法流程:
  结合产量数据、瞬时速度等数采点存在的工业数据频繁闪断、数据异常跳变缺失的数据点,以ISODATA智能诊断预测的拟合数据作为填充值,进行数据补全,形成正确、完整、有效的数据,如图5所示:
  通过以上方法,实现了基于工业实时数采数据缺失值的有效填充,并能实现预测值与真实值的一一对应,将该类方法与传统的BP神经网络预测填充对比,可见,基于ISODATA智能诊断预测的方式,能够有效填充工业实时数采数据的缺失值,并能确保填充的数采缺失值与真实情况做到98%的满足度。
  选取不同迭代次数,误差结果不同,本文提出算法c传统ISODATA的比较结果见表4所示:
  由上表可以看出BP算法的误差较大,ISODATA的误差较小;随着训练的迭代次数的增多,其对应的准确性越好,预测的精度越高,RMSE、MSE越小,更接近于真实值,因迭代次数达到200次时,[R2]为1,即最优的迭代次数为200次。
  4 结束语
  在运用工业大数据进行数采的工业企业中,确保工业大数据数采数据有效、真实、好用,是各工业企业基于数据基础开展大数据应用的前提,面临着因数据量巨大、通信协议复杂多变、传感器数量级剧增,导致工业大数据在数采过程中因信道干扰造成数据频繁闪断、数据异常跳变的问题,传统的意义上的方法无法解决。
  经查询验证目前针对此类问题的解决方法:基于多元回归分析智能诊断建模的解决方法、SVM智能诊断建模解决方法,由于MSE、RMSE、[R2]指标不理想,致使当前已知的先进算法无法解决该类问题。
  本文通过建立一套ISODATA的算法,构建各类数据集;随后将数据集分成训练集和测试集,对这些数据进行归一化处理以提高训练速度和计算精度;接着构建ISODATA结构,输入训练数据进行训练;经实践验证可知,MSE、RMSE、 指标满足要求,证明了该方法的有效性,与传统的BP神经网络预测填充对比,可见,基于ISODATA智能诊断预测的方式,能够有效填充工业实时数采数据的缺失值,并能确保填充的数采缺失值与真实情况做到98%的满足度。该方法在云南中烟红云红河集团工业互联网平台进行了使用,为全面推进大数据应用打下了坚实的数据基础。
  该方法有效解决了所有工业企业在运用工业大数据均面临的棘手的共性问题,推广应用前景广阔。
  参考文献:
  [1] 戴彦文,于艾清.基于健康特征参数的CNN-LSTM&GRU组合锂电池SOH估计[J].储能科学与技术,2022,11(5):1641-1649.
  [2] 刘立邦,杨颂,王志坚,等.基于改进WOA-LSTM的焦炭质量预测[J].化工学报,2022,73(3):1291-1299.
  [3] 吴春鹏,冯姣.结合AMS的C-LSTM船舶轨迹预测[J].船海工程,2021,50(6):141-146,152.
  [4] 张芳丛,秦秋莉,姜勇,等.基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究[J].数据分析与知识发现,2022,6(S1):251-262.
  [5] 邓思源,周兰庭,王飞,等.大坝变形的XGBoost-LSTM变权组合预测模型及应用[J].长江科学院院报,2022,39(10):72-79.
  [6] 夏炳森,唐元春,汪智平.基于AMCNN-LSTM的电力无线接入专网异常流量检测[J].重庆邮电大学学报(自然科学版),2021,33(6):939-945.
  [7] 于雅洁,刘贤达,蒋启梅,等.融合LSTM-DNN的工业安全态势预测模型[J].小型微型计算机系统:1-8[2021-12-17].
  【通联编辑:光文玲】

nlc202301131402




转载注明来源:https://www.xzbu.com/8/view-15444090.htm

相关文章