您好, 访客   登录/注册

物联网环境下大数据流中有效信息过滤算法研究

来源:用户上传      作者:

  摘要:针对常规有效信息过滤算法对数据间关联规则识别能力较弱等问题,提出物联网环境下大数据流中有效信息过滤算法。该算法根据数据权重向量维度,通过余弦夹角构建目标相似的大数据推荐模型;设置表层关联与隐含关联预测规则,利用预测函数确定数据间的关联程度;按照数据间的衔接性质,将数据集合划分成若干子集,模糊聚类物联网中的有效信息;根据用户主观倾向设置偏好函数,以协同过滤方式,得到有效信息过滤算法。实验结果表明,与常规有效信息过滤算法相比,该算法对数据关联规则识别能力提升14.97%,满足当前物联网大数据流中对有效数据的过滤要求。
  关键词:物联网;大数据流;有效信息过滤算法
  DOI:10.11907/rjdk.201413 开放科学(资源服务)标识码(OSID):
  中图分类号:TP312文献标识码:A 文章编号:1672-7800(2020)006-0214-04
  0 引言
  物联网利用局部网络或互联网等通信技术,将传感器、控制器、机器、人员和物品之间建立有效连接,形成一个人与物、物与物之间相关联的智能化网络信息通讯平台,产生了数量庞大的网络数据信息。现阶段称之为大数据,其本身具有体量庞大、运行处理快速、类型多样、价值密度低及真实性高等特点。因此,针对大数据中的海量信息,按照顺序将这些数据设置为只读数据序列,形成规律性的大数据流。
  围绕相关问题,很多学者进行了研究。文献首先分析聚类算法具体过程,判断结果是否有效,并表达数据集,根据数据集构建多维高斯核密度估计方法,使其能够分析数据集本身特性,然后结合聚类有效性分析方法,进行聚类结果探讨,最后验证其方法合理性与有效性;文献提出基于Storm的P-HT并行化算法,该算法以满足Storm流处理平台为基础,首先设置滑动窗口机制,然后替代子树机制,进行并行化处理,体现出较好的灵活性和通用性,利用物联网进行数据处理与分类时具有更大吞吐量和更快处理速度。但以上算法对数据之间关联规则划分能力不足,数据隐含关联挖掘能力较弱,因此过滤后的信息并不理想。为此,对文献算法予以优化,提出物联网环境下大数据流中有效信息过滤算法。本文算法从文献算法中存在的问题人手,着重研究大数据流内数据之间的关联规则,过滤方式更加详细,满足当前物联网对有效信息的过滤要求。
  1 物联网大数据流有效信息过滤算法
  1.1 目标相似的大数据推荐模型构建
  考虑到物联网中大数据流类型的多样性,构建一个推荐模型,该模型主要对类型不同、目标相似的数据信息实施推荐。模型构建需要考虑不同数据之间的目标相似程度,该程度可用余弦夹角衡量。假设大数据流中的数据类型有a1,a2,…,an,每一数据的权重指数分别为qa1,qa2,…,qan,权重向量维度用T表示,则数据之间的目标相似度如式(1)所示。
  式中,i表示大数据流数据量,fi(an)表示i个数据量下的类型函数,gi(qan)表示i个数据量下的权重函数。此时,数据之间的目标相似度曲线如图l所示。
  图1中的曲线是3个类型完全不同的目标相似数据,根据曲线走向及曲线弧度可知,虽然数据类型完全不同,但这些数据之间具有共同目标,因此其走势相似,只是作用价值不同,产生了价值差异。根据式(1)得出相似度结果,设置大数据推荐模型,该模型计算表达式如式(2)所示。
  1.2 数据关联程度预测
  根据上述得到的推荐数据Fm,预测F1,F2,…,Fm之间的关联性,预测规则如图2所示。
  通过上述预测规则可知,根据多个预测条件,设置不同的预测方式,抓住其中表层关联及隐含关联,得到分化详细的关联程度值。建立一个集合R,令该集合R={F1,F2,…,Fm};設置k1,k2,…,km是与推荐数据F1,F2,…Fm相对应的预测条件,则预测系数计算表达式如式(3)所示。
  式中,Kn表示设置的n个预测系数,ωm表示预测约束条件,gm(Fm)表示对推荐数据Fm的m次预测,gm-1(Fm-1)表示对于预测数据Fm的m-1次预测,ks表示每次预测时,在预测强度s影响下的调整指标。根据计算所得预测系数,对推荐数据的关联程度进行预测,当该结果为正数时,说明得出的关联性指标可靠,该关联预测表达式如式(4)所示。
  式中,pred(Fm)表示对推荐数据的预测函数,IDEN(u,v)表示关联规则鉴别函数,ζ表示调和指数,ζ表示调和平均值,u表示表层关联指标,v表示递进的隐含关联指标。根据上述预测表达式,得到不同类型数据之间的关联规则,根据关联规则取值不同,可以确定物联网中大数据之间的联系强度。
  1.3 有效信息模糊聚类
  将具有关联规则的数据,按照一定顺序排列,利用模糊聚类分析方法获取数据特征,匹配并划分客观有效的数据。该数据划分形式以图3所示的划分集合为例,按照数据特征,将不同类型的关联数据分配到不同集合中。
  由图3可知,原始数据集只有一个,不利于数据之间的特征分析,因此利用模糊聚类,将原有集合转换成图3(b)所示的分类子集,通过数据分类,提取出数据特征量。将集合及模糊聚类,得到n个数据子集,用rn表示。将子集中的数据按照衔接性质分类,该分类规则如式(5)所示。   式中,ψ表示分类规则,ψa表示衔接特征量为a的数据分类规则,ψb表示衔接特征量为b的數据分类规则,数字l表示高衔接性,数字0表示低衔接性。根据规则ψ,结合式(4)的预测结果,得出模糊聚类集合如式(6)所示。
  式中,u1表示上层数据自身属性,u2表示下层数据自身属性,△i表示物联网环境属性,y表示数据自身属性,ε表示修正指数。根据c个子集合D,得出关联性强的目标相似数据特征量,此时特征量提取公式如式(7)所示。
  式中,w表示功能、目标相似数据之间的路径,h0表示限定的路径跳数,hi-1表示i个数据之间的实际路径跳数,y表示数据特征传递强度。将提取的数据特征作为物联网中大数据流的有效信息基本常量,为信息过滤提供数据支持。
  1.4 信息协同过滤实现
  在物联网环境下,当使用者想要获取M物品的具体数据时,根据聚类获得的数据特征,对数据信息展开协同处理,从而实现对有效信息的过滤。在协同过滤时,参考用户主观偏好,研究人们获取大数据流信息时,对于哪类数据具有倾向性,该偏好表达式如式(8)所示。
  式中,L(Fi,Fj)表示对两个目标一致数据的偏好函数,其中,i和j是m个推荐数据中的任意两个关联信息值,p表示一个固定常数,x表示偏好指标。结合式(7)、式(8),得出大数据流内数据协同指标,该指标如式(9)所示。
  式中,E表示协同指标,zi表示对子集Dc的i次主动控制,Pr表示信任函数,r表示主观偏好偏移量,o'表示潜在影响因子,ro'表示在该因子作用下的被动偏好,qi表示度量因子,L0(Fi,Fj)表示影响因子作用下的偏好函数。根据该协同控制指标,得出最终过滤算法如式(10)所示。
  2 实验
  本文通过完善常规算法识别能力,加强数据之间关联性分析,并通过创新协同控制方式,实现大数据流中有效信息过滤。以文献算法代表常规算法,将本文算法与文献算法作一次对比实验,描述同一数据信息下,两个算法对数据关联性的分析能力,确定最优效果。
  2.1 实验准备
  实验选用计算机型号为HaseeZX7-CP5,该计算机固态硬盘容量为512GB,运行内存为8GB,内存容量为32GB,符合实验要求。
  从Data.gov(https://www.data.gov/)中随机选取2019年一个月的天气预报数据作为实验对象,排除预报情况和实际天气情况拟合程度小于50%的数据以及极端天气数据,剩余包括风量、湿度值、气压值等20个天气数据样本,将其按照S1-$20进行编号,具体信息值如表1所示,并将该数据保存到系统数据库中。
  依据上述实验数据,分别利用两种算法过滤有效信息,并对得出的实验结果加以分析。
  2.2 结果分析
  为保证实验结果真实可靠,共进行20组数据检测,结果如表2所示。
  根据表2计算结果可知,本文有效信息过滤算法对关联规则识别指标均在0.9以上,20组识别指标平均值为0.939773。文献[3]过滤算法对数据关联规则识别指标均在0.9以下,其平均值为0.780117。对比上述两组数据可知,本文算法在平均关联性识别指标上高出文献[3]算法14.97%。综合上述测试结果可知,本文过滤算法识别数据间关联规则能力更强,得出的过滤结果更满足用户需求。
  2.3 结果检测
  为了验证实验数据的真实准确性,引人一个实验数据检测函数,通过该函数计算取值,确定测试结果可靠程度。该检测函数如式(11)所示。
  式中,MAE表示评定测试结果是否合理,i表示检测轮次,wi表示单次检测下的数据极值,ui表示单次检测下的数据允许误差值,n表示实验测试次数,x表示检测约束规则。当MAE值在[0.94,1]区间,说明实验测试结果真实可靠,可以直接用于证明所提出的问题;当MAE值在[0.9,0.94)区间时,说明该实验测试存在些许偏差,需要重新调试测试软件,检測实验数据,待上述操作完成后,重新开始实验;当MAE值低于0.9时,说明不满足实验要求,需要重新准备实验测试硬件及相关实验数据。
  此次实验MAE值在[0.94,1]区间,说明测试结果可信,本文算法过滤性能强于文献[3]算法。
  3 结语
  本文过滤算法在常规算法基础上,重新分析数据之间的关联强度,通过更加详尽的特征参量,获取具有主观影响因素的协同参数,实现系统化的有效信息过滤。通过实验结果可以看出,本文过滤算法分析物联网中大数据之间关联程度的能力更强,过滤后的网络信息切实满足用户需求。该算法加强了对数据的匹配关联分析,解决了常规算法存在的问题。未来工作中,可在涉及较多物理参数的情况下,就如何简化计算步骤作深入研究。
转载注明来源:https://www.xzbu.com/8/view-15277994.htm