在线客服

咨询热线

基于不平衡数据集的文本分类技术

作者:未知

  摘要:文本自动分类是信息检索和数据挖掘领域的研究热点和核心技术,但是在实际应用中,经常会出现文本实例中一些类中欧冠的文本很多,而另一些类中的文本较少的情况,而这些应用往往就是为了预测其中很少出现但很重要的文本,这就是所谓的文本分类不平衡问题。传统方法对少数类的识别率低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题。因此,该文针对提高不平衡数据集中的少数类文本的分类性能之一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能。
  关键词:不平衡数据集;文本;分类
  中图分类号:TB565文献标识码:A文章编号:1009-3044(2009)36-10571-02
  Unbalanced Data Set Based on the Text Classification Techniques
  WANG Cheng-qiang
  (Computer Science and Information Engineering, Guizhou University, Guiyang 550025, China)
  Abstract: Automatic text categorization, information retrieval and data mining areas of research focus and core technology, but in practice, often the text will appear in a number of instances of the class a lot of text in the Champions League, while others with less text in the class of , but these applications is to predict which are often rare but very important text, which is the so-called text classification imbalance. Traditional methods of identifying a small number of low class, how to effectively improve the classification performance of a small number of classes into the field of machine learning and pattern recognition problems to be solved. Therefore, this paper improve the unbalanced data set in a small number of classes, one of the text classification performance issues, from the perspective of the data handled at the level of data re-sampling. Using random sampling method to improve the classifier in the non-equilibrium generalization performance on data sets.
  Key words: unbalanced data sets; text; classification
  随着信息技术的发展,人们可以获得越来越多的数字信息。有研究报告指出,2006年全球每年制造、复制出的数字信息量共计1610亿GB;而受“富媒体、用户创建内容及十几亿网名这三大因素的推动,到2010年,全球的数字信息量预计为9880亿GB,从2006年至2010年,全球信息量增幅为6倍。
  数学信息的泛滥将为信息管理带来巨大的压力。目前的数字信息资源一般有文字、声音、图片、视频等多媒体资源构成,而文本信息在数字信息中占有相当大的比重,因而,对文本信息的分类处理成为信息管理中的重要的一环。
  国内外对于文本分类技术的研究已经开展了较长的时间,总体上来说,文本分类技术已经有了较为完善的发展。但是,值得注意的是,在实际应用中,文本分类中数据集的不平衡问题是一个普遍存在的问题。随着机器学习、信息检索从发展到成熟,数据集的不平衡或偏斜问题就成为了一个新的重要的问题。数据集的不平衡问题,即类别间样本的数量可能存在书谅解的差距,这是导致分类效果不理想的一个重要因素。在数据不平衡的情况下,分类器很容易被大类淹没而忽略小类。
  针对不平衡数据集问题其自身的特点,如何在不影响整体分类性能的基础上,提高少数类文本的分类效果是解决不平衡数据集问题的基本要求。
  1 数据不平衡问题
  在文本分类的研究中,通常都假定用于训练的文本集合是平衡的,即不同类别间的文本数量大致相等。然而,在现实问题中对文本数据进行处理时通常会发现,某一类或几类中的文本数量相对较少,而此类文本又相对重要,这就是所谓不平衡数据集问题,而这样的数据集就被称之为不平衡数据集。其中,文本数量多的类成为多数类,文本数量少的成为少数类。
  不平衡数据集在实际生活中是普遍存在的。例如在对非法网页的检测中,正常网页样本数量远大于非法网页,即非法网页属于少数类。将合法网页误分为非法网页,要投入额外的人力和物理来对其进行验证;但是,一旦将非法网页误分为合法网页,所带来的经济损失,以及不良影响比上一种情况要大的多。而若使用传统的分类方法对这样的文本集合进行分类,对少数类文本的识别效率并不理想。从上述网页分类的例子我们可以看出,在这种文本数据分布不平衡的情况下,通常少数类文本的分类效率对系统来讲恰是至关重要的。其被错误分类所带来的代价往往要比多数类样本被错误分类要高得多。若分类不当,当为用户带来难以估量的损失。因此,在某些领域中,如何将少数类文本高效而准确的识别出来成为了研究的重点。
   常用的不平衡数据集分类方法一般可以分为两类:基于数据层的分类和对已有分类器进行改进。基于数据层的分类方法是从给定的文本集入手,改变不平衡数据的分布,从而降低不同类别间文本数量的不平衡程度;而基于分类器算法的方法是针对数据集的特点,对传统的分类器进行改进,从而达到一个比较好的分类效果。由于改进的分类器往往只针对某些特定的数据集,其适用性较小,而相对于对数据集进行的操作,对分类器改进需要花费更多的成本。
  这里我们采用基于数据层的方法对不平衡数据进行分类。其主要目的就是:通过这种数据处理,来减轻数据集的不平衡程度,从而提高少数类的分类性能。基于数据层德文分类主要是对数据集进行处理,通常采用数据抽样的方法。
  2 不平衡数据集上的文本分类问题
  针对不平衡数据集上文本分类技术的研究是模式识别领域中一个具有挑战性的课题,其中少数类的分类性能的提高更令人们关注。本文提出了一种分层抽样和过抽样相结合的方法对训练文本集合进行处理。为了减少少数类的分类性能,在进行分类之前,对同一层上的文档进行改进的过抽样,增大其学习域,更好地提高分类器对少数类的分类性能,下面对该系统进行简单的介绍。
  2.1 系统的组成
  本文研究的不平衡数据集上的文本分类系统的步骤可以分为两大部分,即训练过程及测试过程。
  训练过程:首先针对训练集进行抽样,形成相对“平衡“的文本集合,然后对这个新生成的训练文本进行特征选择,并生产文档向量,构建分类模型。最后进入训练分类器的阶段。
  测试过程:将测试文本集向量化之后,使用在上一个过程中生成的分类器对向量化的文本集合进行分类,最后对分类结果进行评估。
  从这个系统来看,在文本分类的过程中,主要是包括 以下几个关键部分:
  1) 训练集处理
  由于训练文本集合的不平衡性,将对分类的结果产生一定的影响,因此先要对训练集合进行预处理,之后再用处理过的文本集训练分类器。这里使用数据抽样的方法来提高分离器在非平衡数据集上的泛化性能,产生新的少数类文本,使之与多数类中的文本数量达到一致,从而形成大体平衡的文本集。
  2) 文本向量化
  在系统中,分类器职能处理向量化的文本。首先应对文本进行分词和词性标注。根据分词字典对初始字串进行全切分,找出最佳的切分路径形成切分集,对最佳路径中的词串进行标注,之后通过词频和语义相似度计算,以互相关信息为基础,将文本向量化。
  3) 特征提取
  通过对大规模的语料库的学习,对训练文档进行词条切分和词频统计并根据词频分布提取出代表文档类的特征项集及形影权值生成特征向量表,得到类别特征,在后面的步骤中将利用其对测试结果进行分类。其中,类别特征主要是指一些词和短语,这些词和短语的选择主要是对语义重要度和词频来决定的;分类模型集:将类别训练集,采用KNN和SVM算法的学习算法来进行处理,就可以获得分类模型。
  4) 文本分类
  在分类模块中,通过输入向量化过的文本信息和分类模型集,对给定的测试文本集进行分类,得到集合中每个文本所属的类别。需要说明的是,文本存在兼类属于正常现象,即一篇文章实际上可以属于类别体系中的多个类别,但是,由于文本所采用的试验语料中的每篇文本只被标识了一个类别,考虑到对分类结果进行性能评价时的合理性,本系统中使用的分类器设计为单分类器,即文本最终只被制定为一个类别。
  5) 分类评价算法测试
  分类评价部分对分类性能进行评价,同时给出反馈信息进行学习,从而对分类特征进行不断的修正。计算分类结果准确率数据以及分类测试结果的统计图,并将分类结果返回给用户,由用户对分类结果进行确认或者修正,从而进一步提高分类效率。
  在文本分类中,由于中文文本的特殊性及分类过程,决定了特征提取和文本分类的中的分类器构造将成为其中的关键步骤。
  2.2 技术难点
  文本分类技术随饭发展较快,但是在实际应用中,还存在一定的技术难点,主要是以下几个方面:
  1) 与英文文本不同,对中文文本进行分析的一个前提条件是对中文文本进行分词处理,这也是进行中文信息处理的一个难点。
  2) 在文本实例中一些类中的文本很多,而另一些类中文本较少的情况,而这些应用往往就是为了预测其中很少出现但很重要的文本,当出现这个文本中数据不平衡时,小类问题的发呢类效果往往不尽如人意。
  中文文本的上述特点使得对文本分类是一个复杂的技术过程,这里根据以上分类模型实现了一个文本自动分类系统。
  3 影响分类系统性能的因素
  影响分类系统性能高低的有以下几个因素:
  3.1 类别体系的设置
  类别体系在被认为设定时,可能会出现交叉现象,即各类文档之间具有较多的重叠特征。对于具有高级思维能力和抽象能力的人类大脑来说区分重叠特征在不同语言环境下的不同语义比较容易,但是对于计算机这种只能对语言做浅层次理解(只能区分具体词形差别而不能区分语义差别)的机器而言,区分高级抽象的事物就表现出困难。例如―地理位置与北京历史发展这篇文章,该文章介绍了在北京历史发展进程中,人与自然界之间的关系。通过人工分类,很容易可以将其归到历史类中。但是由于文中多次出现属于农业类别的特征词,如“自然环境”,“游牧”、“农耕”、“农产品”等,因此在使用系统进行分类后,该文档被判定为农业类。可以看出,对于特征不够明显的文章,即使系统采用的分类算法性能再先进,计算机也是很难进行正确识别的。因此,结合计算机目前的智力水平,为了能够得到较高的分类性能,在设置类别体系时,应尽量使用类别间的差异大,尽量避免类别交叉现象的出现,从而保证较高的分类性能。
  3.2 训练集的平衡程度
  从上边的分类试验数据可以看出,随着训练集平衡程度的增加,分类系统的性能也随着增高。这是因为,训练集规模越大,获取到的文本特征就越全面,构造的向量模型越多,越能够很好的反映该类文本的特征,训练集的规模过小,文本特征不能很好的对类别进行表示,则会应系那个到分类系统的性能。当然,训练文本集过大,也会带来训练时间过长,耗费存储空间过大的问题,因此在训练文本的选取上尽量选择各个文本类别中文本数量相差不大的数据进行训练,或者对小类文本数据集进行抽样扩充,从而达到平衡,以提高分类效率。
  4 结束语
  在网络技术高速发展的今天,文本分类技术还将与图像识别、语音识别融合,如基于字幕的视频分类、视频检索等。这就进一步要求文本分类技术与文本处理、降噪、提高分类精度等方面的技术相结合,这些方面都需要做进一步的探讨和研究。
  参考文献:
  [1] 陆玉昌,普明宇,李凡.向量空间法中词条权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210.
  [2] 周茜,赵明生.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(4):18-24.
  [3] 张启蕊,张凌,董守斌等.训练集类别分布对文本分类的影响[J].清华大学学报,2005,45(1):1803-1806.
  [4] 李正欣,赵林度.基于SMOTEBoost的非均衡数据集SVM分类器[J].系统工程,2008,25(6):117-120.
  [5] 徐燕,李锦涛.基于区分类别能力的高性能特征选取方法[J].软件学报,2008,6(19):82-89.

论文来源:《电脑知识与技术》 2009年第36期
转载注明来源:https://www.xzbu.com/8/view-8705069.htm