基于K-means的大数据相似重复记录检测
来源:用户上传
作者:张平?程新莲
摘 要:目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提出了一种基于k-means分M聚类的检测算法,实验分析表明,该方法在确保精度不变的情况下提高了检测效率。
关键词:相似重复记录;K-means;SNM
中图分类号:TP18 文献标识码:A文章编号:2096-4706(2022)08-0089-03
Detection of Similar Duplicate Records of Big Data Based on K-means
ZHANG Ping1, CHENG Xinlian2
(1.School of Information Engineering, Anhui Vocational and Technical College, Hefei 230011, China; 2.Jiashan D-max Electronics Co., Ltd., Jiaxing 314100, China)
Abstract: At present, large enterprises store a large amount of data, but the data quality is worrying. It expresses especially that there are much similar, repeated and redundant data, and the combination of multiple data sources aggravates the redundancy of data. Big data similarity record detection part is an important direction of data cleaning research. Aiming at the detection problem of similar and repeated data existing in big data, this paper proposes a detection algorithm based on K-means grouping clustering. Experimental analysis shows that this method improves the detection efficiency while ensuring the accuracy is constant.
Keywords: similar duplicate record; K-means; SNM
0 引 言
目前大多数企业的业务系统积累了大量业务数据,其中不乏许多的冗余数据,严重影响了数据分析和数据挖掘的结果,冗余的数据导致数据价值密度低。为了能够从数据中获取更精准的有价值的信息,有必须对数据进行清洗,也成为数据预处理。数据清洗就是从大量的数据中找出重复、无用或歧义的数据并去除,其中检测出这些脏数据尤为重要。
近些年来国内外很多学者和专家都重视数据清洗工作的研究,大量学者都专注于相似重复记录检测的研究,相似重复记录检测是数据清洗工作的重要环节。目前大数据具有维度高、数据量大、数据结构复杂等特点,导致传统的检测方法对大数据的相似重复数据检测时间效率和准确率都不高,大量的排序和比较工作耗费大量的时间,加上数据复杂,很多算法都不能有效进行检测,因此,本文根据大数据的特点提出了通过聚类分组后再检测相似重复记录的方法,提高了检测效率和检测的准确率。
1 相似重复记录
大数据中的重复数据又分为完全重复数据和相似重复数据两种情形。如果数据集中存在两条记录,除了主键字段不同,其他字段的值都相同,那么这两条记录即为完全重复数据。如果数据集中存在两条记录,除了主键字段不同以外其他字段在描述或格式书写上存在差异,但是表示的内在含义是相同的两条记录即为相似重复记录。如表1所示。
如表1所示学号为100001和100002的两条记录,除了主键字段不同以外,其他字段的值都是完全相同的,故为完全重复记录,而学号100001和100003的两条记录,除了主键字段相同以外,其他字段存在虽然表示方法不一样,但是含义是一样的字段,比如性别字段“1”表示男性的意思;还存在字段值意思相同的简称表示,比如学校使用全称和简称表示,其实表示的都是一个意思;这些本质上是同一个含义而不容易发现的重复数据称为相似重复记录。本论文主要研究重点是相似重复记录检测问题。
2 相似重复记录检测
数据中存在大量的相似重复记录影响了数据的质量,为了能够挖掘出有价值的信息,需要对数据进行清洗,从多维复杂的数据集中把冗余数据检测出来的过程称为相似重复记录检测。
目前检测相似重复记录的主要方法有两类:
排序比较检测算法,先进行数据集某几个关键字段排序,经过多轮排序,具有相同或相似的字段值的数据就会聚集在一起;还可以通过滑动窗口在一定范围内从上往下逐一比较进行相似记录筛选来检测相似记录。
相似记录转换为相似度比较检测。两条记录是否相似是通过比较李璐相似度进行度量的,相似度的计算主要采用编辑距离的算法,距离公式的选择有多种诸如欧式距离、余弦距离等。相似检测的时候首先会根据距离公式计算一条记录中的每个字段的相似度,在合并统计出整条记录的相似度,同时会科学设定相似度的阈值范围,接近阈值的筛选归集为相似重复记录,本文的算法就是基于该思想实现的。
nlc202208231445
转载注明来源:https://www.xzbu.com/1/view-15438087.htm