您好, 访客   登录/注册

一种改进TF-IDF的中文邮件识别算法研究

来源:用户上传      作者:

  摘  要: 传统的TF?IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF?IDF算法和类中心向量的中文垃圾邮件识别方法。通过改进传统的TF?IDF计算方式,在传统的TF?IDF算法里面加入卡方统计量CHI和位置影响因子能够很好地改善一些重要词汇的权重问题,并结合逆向最大匹配算法的邮件文本分词和类中心向量算法的特征选择进行垃圾邮件分类。实验结果表明,所提算法相较于传统的TF?IDF算法对垃圾邮件识别的准确率提升了约3.6%,具有一定的实际应用价值。
  关键词: TF?IDF算法; 邮件识别; 卡方统计量; 权重分配; 邮件分类; 仿真分析
  中图分类号: TN911.23?34; TP181               文献标识码: A                      文章编号: 1004?373X(2020)12?0083?04
  Abstract: A Chinese spam recognition method with improved TF?IDF algorithm and class centre vector is proposed to improve the accuracy of spam recognition. The traditional TF?IDF algorithm does not assign the weight of word segmentation well, and the calculated IDF value for some words that can represent the mail category and has higher frequency of occurrence is relatively small. The small IDF value indicates that the capacity of distinguishing the words is weak and does not accord with the actual demand. In this paper, the traditional TF?IDF calculation pattern is improved. The traditional TF?IDF algorithm adding the chi?square statistic CHI and position influence factor can improve the weight of some important words, and the spam classification can be performed by combining it with the feature selection of class center vector algorithm and mail text segmentation of the reverse maximum matching algorithm. The experimental results show that, in comparison with the traditional TF?IDF algorithm, this algorithm can increase the accuracy of spam identification by about 3.6%, which has a certain practical application value.
  Keywords: TF?IDF algorithm; mail recognition; CHI; weight allocation; mail classification; simulation analysis
  0  引  言
  如今邮件成为日常沟通通信的主要方式之一,而垃圾邮件的存在给用户带来困扰。在卡巴斯基实验室发布的2018年第二季度垃圾邮件和钓鱼邮件的数据里,来自中国的垃圾邮件数目占邮件总量的14.36%,在统计的国家中国排名第一[1]。邮件分类识别的常用方法有基于IP地址和域名的黑白名单拦截方法、朴素贝叶斯算法[2]、决策树算法[3]、支持向量机算法[4]、K近邻算法分类[5]、类中心向量算法。现存在的技术在垃圾邮件识别准确率并不是很高,故本文算法在传统的TF?IDF算法[6]上改进,采用更精确的分词算法与邮件特征词向量的转化算法,在保证正确提取邮件内容的前提下提高垃圾邮件识别的准确率。
  1  郵件分类的常用方法介绍
  1) 黑白名单拦截方法[7]。现有一些组织和机构专门管理邮件黑名单,处理垃圾邮件地址的问题。若一个IP地址被列入黑名单,ISP服务商就会屏蔽该IP地址,用户则不会收到该地址发送的邮件。但是如果对方设置动态IP或者在不知道对方邮箱的前提下就没办法拦截邮件。
  传统的TF?IDF并不能很好地处理特征词的权重问题。传统的TF?IDF算法思想认为,如果垃圾邮件类别中包含词条[t]的邮件数为[m],非垃圾邮件包含[t]的邮件数为[k],则所有包含[t]的邮件数[n=m+k],当[m]大的时候,[n]就会大,TF?IDF公式得到的IDF的值会小,说明单词[t]的区分能力不强。实际上,若某些词条多次出现在一个类别的邮件中,则该词条几乎能够代表这个类的邮件文本的特征,应给予较高的权重,并选来作为该类邮件的特征词。   3  改进后的TF?IDF与邮件分类的结合
  3.1  改进的TF?IDF算法
  4  实验仿真结果
  实验所用到的数据集来源于GitHub网站,使用2 000封邮件作为训练集提出特征词组成词典,用未经改进的TF?IDF类中心向量算法与改进的算法做对比,如表2所示,依次用100封、500封、1 000封、2 000封邮件做测试,仿真TF?IDF算法邮件分类的准确性。从图3的仿真结果可知,传统的算法平均准确率为82.55%,改进后的算法为准确率86.18%。因此,在其他条件相同时,本文改进的TF?IDF算法准确率更高,能够更好地应用于垃圾邮件分类上。
  图4为改进的TF?IDF算法与传统的TF?IDF在准确率上的对比。图5为朴素贝叶斯分类器在Python平台下用SKlearn库朴素贝叶斯分类器与本文改进算法的测试结果对比,仿真结果显示改进的TF?IDF算法准确率要高于朴素贝叶斯分类器。
  5  结  语
  本文提出一种改进TF?IDF算法和类中心向量的中文垃圾邮件识别方法。改进的TF?IDF算法对邮件中不同位置的特征词计算出相对应的权值,邮件中的主题和邮件正文首句可以代表主体邮件信息,所以直接给出固定的权值,邮件的其他部分内容用卡方统计量改进传統TF?IDF的不足,提高垃圾邮件识别准确率。逆向最大匹配算法在分词效率与准确性上都高于正向最大匹配,类中心向量算法对邮件向量有着较高的处理效率。从实验结果可知,改进的TF?IDF算法提高了垃圾邮件的识别在准确率,而且测试文本集越大得到的准确率越高。
  注:本文通讯作者为万国金。
  参考文献
  [1] 王蕊.卡巴斯基发布第三季度垃圾邮件和钓鱼攻击报告[J].计算机与网络,2015,41(24):45.
  [2] 黄勇,罗文辉,张瑞舒.改进朴素贝叶斯算法在文本分类中的应用[J].科技创新与应用,2019(5):24.
  [3] 雷飞.基于神经网络和决策树的文本分类及其应用研究[D].成都:电子科技大学,2018.
  [4] 郭太勇.一种基于改进的TF?IDF和支持向量机的中文文本分类研究[J].软件,2016,37(12):141?145.
  [5] 刘发升,董清龙,李文静.变精度粗糙集的加权KNN文本分类算法[J].计算机工程与设计,2019(5):1339?1342.
  [6] 叶雪梅,毛雪岷,夏锦春.文本分类TF?IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104?109.
  [7] 杨雷,曹翠玲,孙建国,等.改进的朴素贝叶斯算法在垃圾邮件过滤中的研究[J].通信学报,2017,38(4):140?148.
  [8] 高晓利,王维,赵火军.几种改进的朴素贝叶斯分类器模型[J].电子世界,2018(21):40?41.
  [9] 陈奕辰.基于句子权重和篇章结构的自动文摘算法的研究与实现[D].长沙:湖南师范大学,2015.
  [10] 石俊涛.中文文本分类中卡方特征提取和对TF?IDF权重改进[D].成都:西华大学,2017.
  [11] 杨贵军,徐雪,凤丽洲,等.基于最大匹配算法的似然导向中文分词方法[J].统计与信息论坛,2019,34(3):18?23.
转载注明来源:https://www.xzbu.com/8/view-15248447.htm