您好, 访客   登录/注册

基于双区块链结构的高维光谱离群数据挖掘

来源:用户上传      作者:程雅琼

  摘要:在对高维光谱数据集中的离群数据进行分类和挖掘时,由于传统基于逆k近邻计数的挖掘方法在应用中极易受到宇宙背景噪声、光线衰弱等因素影响,使得成功挖掘出的离群数据点数量少,最终会严重影响挖掘精度。针对这一问题,在引入双区块链结构的基础上,开展高维光谱离群数据挖掘方法设计研究。通过基于双区块链结构的高维光谱数据获取、高维光谱数据离群点检测、基于离群分数的三元组挖掘样本选择和高维光谱离群数据分离,提出一种全新的挖掘方法。通过实验证明,新的挖掘方法可有效解决上述问题,促进挖掘精度的不断提升。
  关键词:双区块链结构;离群数据;高维光谱;数据挖掘
  中图分类号:TP18 文献标识码:A
  文章编号:1009-3044(2022)15-0017-02
  当前科学技术的快速l展也在一定程度上促进了天文领域的发展,同时也使得天文数据呈现出爆炸式的增长趋势。目前世界上光谱获取率最高的望远镜是LAMOST望远镜,在夜晚观测条件下能够获取到数万条的光谱,能够为天文领域的相关研究提供更加可靠的依据和素材,对于促进天文领域的完善和快速发展而言都有着十分重要的意义。针对高维光谱的分类是从上千维的光谱数据当中,选择或提取能够实现更精准识别的特征,并将各个特征汇总构建一个特征空间[1]。同时,在对高维光谱进行分类的过程中,光谱数据集当中通常会存在一部分离群分布的数据,由于其特征与已知的天体特征区别较大,因此常常被划分为一类未知的光谱数据类别。这些离群数据在高维数据集当中存在的主要原因,是由于宇宙背景噪声、光线衰弱等因素对光谱数据造成了严重的污染,进而使得这一部分数据无法实现准确识别[2]。针对这一问题,该领域研究人员对其进行了不断探索,并逐步提出多种对高维光谱离群数据进行分类识别的挖掘方法。但由于针对这一问题的研究起步较晚,因此目前大部分挖掘方法在实际应用中都存在训练时间长、识别精度低的问题。因此,针对上述论述,本文在引入双区块链结构的基础上,开展对高维光谱离群数据挖掘方法的设计研究。
  1 基于双区块链结构的高维光谱离群数据挖掘方法设计
  1.1 基于双区块链结构的高维光谱数据获取
  在高维光谱数据集中,由于数据量巨大,因此为了确保后续挖掘的效率和精度,在挖掘前需要从不同的文件当中获取待挖掘的数据,并在完成对数据的提取后,针对其不同维度进行预处理。预处理的内容主要包括对数据的标准化处理和对其主成分的降维分析处理。针对占用空间较大,并且分布在不同文件中的高维光谱数据,采用直接读取文件的方式会消耗大量的时间,因此针对这一问题,本文将原始数据根据高维光谱数据ID存入MySQL数据库当中,并在后续挖掘的过程中,随机抽取少部分数据,并将其存入到h5文件当中,将其视为训练集和测试集,以此提高对高维光谱离散数据挖掘的效率[3]。同时,在后期完成挖掘后,也可通过这一操作,采用随机数获取表格ID的方式,使用MySQL数据库当中的数据,进一步提高数据的利用价值。通过上述操作获取到的高维光谱数据可以实现由于序号造成数据片面化的问题,进而使整个数据集的特性得到更充分地发挥[4]。在完成对高维光谱数据的获取后,基于其海量数据特点,引入双区块链结构,将获取到的数据进行存储。图1为基于区块链结构的高维光谱数据存储结构示意图。
  在图1所示的存储结构基础上,可确保在挖掘过程中更精准地获取需要进行挖掘的数据集,进一步为离群数据的挖掘提供依据。同时,存储在上述结构当中的数据集为经过PCA降维处理后的数据。在处理的过程中,可结合协方差矩阵对其进行降维,协方差矩阵表达式为:
  [cov(X,Y)=i=1n(Xi-X)(Yi-Y)n-1] (1)
  公式(1)中,[cov(X,Y)]表示为两个高维随机变量度量结果;[X]和[Y]表示为均值;[Xi]和[Yi]表示为某组数据i当中的数据。根据上述公式(1)完成对所有高维光谱数据的PCA降维处理[5]。协方差矩阵的实质是实现对两个随机变量关系的度量统计,通过协方差矩阵计算后,数据集当中存在的高维光谱数据能够实现降维处理,从而为后续挖掘提供便利条件。
  1.2 高维光谱数据离群点检测
  根据上述论述内容,在完成对基于双区块链结构的高维光谱数据获取后,并实现对数据的PCA降维处理,需要对数据集当中所有离群点进行检测。通过随机选择某一数据集当中的子集,选择某一数据点到数据子集之间最近的三个点,并计算求解得出其平均数值,通过不断重复上述操作,最终得到该组数据的离群分数,其表达式为:
  [χ=rm] (2)
  公式(2)中,[χ]表示为某一组数据的离群分数;[r]表示为某一数据点到数据子集之间最近的三个点,并计算求解得出其平均数值;[m]表示为重复操作次数。在这一数据的基础上,引入正态分布,对数据点到随机子集之间的距离进行分析,并将与该数据中心距离较远的两侧数据作为离群值[6]。具体而言,在进行离群点检测的过程中,其流程可大致分为以下四个步骤:第一步,随机选择高维光谱数据集当中的抽取数据子集;第二步,计算待挖掘的数据到该数据子集之间的欧氏距离;第三步,计算求解多个点之间欧氏距离的平均值,并按照公式(2)完成对离群分数的计算;第四步,设置阈值,并按照如下公式,找出相应数据点:
  [r>μ+ασ] (3)

nlc202207151355



转载注明来源:https://www.xzbu.com/8/view-15436003.htm

相关文章