您好, 访客   登录/注册

基于文档结构的特征权重计算方法研究

来源:用户上传      作者:

  摘 要:针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。
  关键词:文本分类;向量空间模型;文档结构;特征权重;特征选择
  DOI:10. 11907/rjdk. 182038
  中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2019)005-0065-04
  Abstract: Documents in different categories can be represented as the same vector, relative position relationships among features in the document are considered in the paper on the basis of analyzing commonly-used document feature weighting methods aiming at the problem, and document structure matrix DS is introduced. DS is combined with three commonly-used weight algorithms for conforming three new models. The six models are utilized for classification experiment on actual corpus. Experimental results show that the weight algorithms based on DS can improve classification effect of documents compared with original weight algorithms.
  Key Words: document classification; vector space model; document structure; feature weight; feature selection
  0 引言
  随着网络技术的快速发展,网络信息量呈爆发式增长,如何对网络信息进行有效检索已成为一个研究热点。因此,对文档进行快速有效的分类已成为处理与组织文本数据的关键技术之一[1]。
  向量空間模型VSM(Vector Space Model)常用于文本分类中,其思想是将文档形式转化为多维向量空间中的一个向量,并通过空间中的向量相似度表示文本之间相似度[2]。但其只提供了一个理论框架,并没有确定特征项权重计算方法[3]。因此,要提高文本分类效果,可以从特征项权重相关算法入手,选择最合适的权重计算方法。
  目前常用权重计算方法是TF-IDF(Term Frequency-Inverse Document Frequeny),但该方法仍然存在一些缺陷。数据集在类间分布往往不均衡,即不同类别文档数量可能有巨大差别,从而对TF-IDF的最后计算结果造成很大影响[4]。为了降低数据集偏斜对结果的影响,How等[5]提出一种Category Term Descriptor(CTD)方法,取得了很好的效果。
  假设某个特征词在一个类别中出现频率高,同时在其它类别中出现频率低,可认为该特征词能够很好地表达所在类文档[6]。但是从IDF定义可得出,该词有可能被赋予较低权重。针对该缺陷,很多学者从类间分布集中度与类内分布均匀度出发对TF-IDF加以改进,如Deng等[7]提出的CRF算法、沈志斌等[8]提出的BOR-TFI-DF权重函数,以及台德艺等[9]的TF-IDF-DIC权重函数、张瑜等[10]的WA-DI-SI算法、路永和等[11]的TW-TF-IDF算法、郭红钰[12]的ETFIDF算法等。还有学者引入特征选择函数以修正特征词权重,如赵小华等[13]的TF-IDF-CHI算法和李原等[14]引入信息熵IG的TF-IDF算法等。
  传统特征权重算法在文档本身的信息上,只考虑了文档词频信息,而忽略了文档结构信息。本文根据文档特征结构对分类的影响,引入文档结构矩阵DS(Document Structure)对特征权重进行修正。
  1 特征权重计算方法
  文本特征权重计算是文本向量化过程中最重要的一个环节,特征权重对分类结果有着直接影响。通过特征权重计算,文本中的重要特征将被赋予较高权重。
  1.1 经典特征权重
  由图3可看出,当ws取值大于4以后,分类性能基本不再提高,反而会降低,从而得出结论:在一篇文档中,特征T通常最多与距离为4的特征之间有一定关系,与距离大于4的特征之间关系很弱。因此,在以下实验中,ws均取值为4。
  3.3.2 DS算法有效性
  为避免实验结果的偶然性,本文将训练数据集和测试数据集独立重复进行10次实验,使用宏平均F1值评估6种特征权重计算方法的分类性能,结果如表3所示。
  从表3与图4可以看出,DS算法相对于TF-IDF、TF-IDF-logCHI和ETFIDF几种算法,分类效果均有一定提升。对10次实验的F1值取平均后可以看出,DS算法将TF-IDF算法的F1值由88.03%提高到88.82%,将TF-IDF-logCHI算法的F1值由88.64%提高到89.31%,将ETFIDF算法的F1值由89.41%提高到89.99%,说明基于文档特征结构的权重修正算法是有效的,同时也说明该修正算法具有一定的普适性,在多种权重算法上都得到了验证。   4 结语
  本文重点研究了在文本表示中对特征权重算法的改进,提出基于文档特征结构DS的权重计算方法。通过在TF-IDF、TF-IDF-logCHI、ETFIDF方法上引入DS矩阵进行权重修正,得到了TF-IDF-DS、TF-IDF-logCHI-DS、ETFIDF-DS模型。经过对比发现,基于DS的权重算法使分类效果整体上得到了提升,但是本文仍然存在以下不足:
  首先,在文档特征结构表示上,本文提出的DS计算方式并不是最佳的,从图4可以看出,在部分实验中,基于DS的算法分类效果并未得到提升,说明该算法稳定性不足,对于文档的结构表示还有待进一步研究。
  其次,本文实验的语料仅局限于情感分类,而未在与主题相关分类中进行实验。因此,未来可扩大语料选取范围,以验证改进算法的普适性。
  参考文献:
  [1] 徐燕,李锦涛,王斌,等. 基于区分类别能力的高性能特征选择方法[J]. 软件学报,2008, 19(1):82-89.
  [2] 路永和,李焰锋. 多因素影响的特征选择方法[J]. 现代图书情报技术,2013(5):34-39.
  [3] 段江丽. 基于SVM的文本分类系统中特征选择与权重计算算法的研究[D]. 太原:太原理工大学, 2011.
  [4] 施聪莺,徐朝军,杨晓江. TFIDF算法研究综述[J]. 计算机应用, 2009,29(B06):167-170.
  [5] HOW B C,NARAYANAN K. An empirical study of feature selection for text categorization based on term weightage[C].Web Intelligence, 2004. WI 2004. Proceedings. IEEE/WIC/ACM International Conference on. 2004:599-602.
  [6] 张帆,张俊丽.统计频率算法在文本信息过滤系统中的应用[J].图书情报工作,2009,53(13):116-119.
  [7] DENG Z H, TANG S W, YANG D Q, et al. A linear text classification algorithm based on category relevance factors[J]. Lecture Notes in Computer Science, 2002, 2555:88-98.
  [8] 沈志斌,白清源. 文本分类中特征权重算法的改进[J]. 南京师范大学学报:工程技术版,2008, 8(4):95-98.
  [9] 台德艺,王俊. 文本分类特征权重改进算法[J]. 计算机工程, 2010,36(9):197-199.
  [10] 张瑜,张德贤. 一种改进的特征权重算法[J]. 计算机工程, 2011,37(5):210-212.
  [11] 路永和,李焰锋. 改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作, 2013, 57(3):90-95.
  [12] 郭红钰. 基于信息熵理论的特征权重算法研究[J]. 计算机工程与应用,2013(10):140-146.
  [13] 赵小华,马建芬. 文本分类算法中词语权重计算方法的改进[J]. 电脑知识与技术,2009, 5(36):10626-10628.
  [14] 李原. 中文文本分类中分词和特征选择方法研究[D]. 长春:吉林大学,2011.
  [15] 蒋强荣,宋烈金. 基于图核算法的文本分类[J]. 计算机与现代化,2017(11):13-16,61.
  [16] 張爱华,靖红芳,王斌,等. 文本分类中特征权重因子的作用研究[J]. 中文信息学报, 2010, 24(3):97-104.
  [17] 上官彦辉. 基于投资者情绪的股票预测研究[D]. 北京:北京工业大学,2016.
  [18] 谭松波. 有关中文情感挖掘的酒店评论语料[EB/OL]. http://www.datatang.com/data/11936.
  [19] 魏善岭,傅英亮,鲁明羽. 一种用于互动型不良信息过滤的贝叶斯改进方案[J]. 广西师范大学学报:自然科学版,2009,27(3):134-137.
  [20] 于洪霞. 基于SVM的中文垃圾邮件过滤[D]. 哈尔滨:哈尔滨工程大学,2009.
  (责任编辑:黄 健)
转载注明来源:https://www.xzbu.com/8/view-14771283.htm