1999―2008年我国SVM文本分类文献计量分析
来源:用户上传
作者:
[摘要]对1999―2008年国内支持向量机文本分类研究论文,从来源数据库、发表时间、期刊分布等方面进行文献计量分析,按主题简要介绍该领域理论研究和应用研究两个层次的主要成果,对这些成果从内容和研究方法上进行评述,指出SVM文本分类的不足,对研究中存在的问题进行分析总结,使读者全面对该领域研究情况认识,以期促进该领域进一步的深入发展。
[关键词]支持向量机文本分类文献计量分析
[分类号]TP316
身处“信息丰富,知识贫乏”的时代,如何在海量信息中高效地获取特定内容,具有重要的现实意义。文本分类采用信息处理、机器学习与统计学习理论,在网页分类、邮件过滤、搜索引擎、学科导航等方面有着深入的应用,已经成为信息处理现代化的关键。文本分类方法很多,但研究表明支持向量机(Support VectorMachine,SVM)的分类性能尤其是泛化能力好于传统的分类方法。其基于结构风险最小化原理,求解化为一个线性约束的凸二次规划(QP)问题,解具有唯一性和全局最优性。近年来国内对SVM文本分类作了很多研究,本文对1999―2008年间的主要研究成果从文献特征到内容主题进行了统计分析和梳理,以便参考。
1 数据来源
笔者以题名或关键词“支持向量机”或“SVM”,日期为1999年1月1日到2008年12月28日,对CNKI中的“中国学术期刊网络出版总库”、“中国优秀硕士论文全文数据库”和“中国博士学位论文全文数据库”三个数据库中进行跨库检索,得到的文献总量为6 938篇,以题名或关键词“文本分类”进行二次检索,经查重剔除得到文献174篇。其中期刊论文112篇,占64.37%,硕博士学位论文62篇,占35.63%。
2 文献计量分析
2.1 论文发表年代分析
论文的年代分布反映该研究的发展历史,并可以揭示其发展趋势。根据表1,我们可以分出两个阶段:一是从1999年到2003年的起始阶段,论文仅占总量的4.02%;二是2004年至今的快速发展阶段(08年下降是因为网络数据库有滞后性)。随着信息技术和互联网的进一步发展,文本信息更加复杂,对文本自动分类技术提出了更高的要求,已有的文本分类算法都存在着相应的不足之处,渐渐难以满足实际要求,在这样的环境下,SVM文本分类方法从理论和应用上都得到广泛研究。国外提出SVM概念是在20世纪90年代中后期,2000年左右开始出现大量的研究成果。对中文文本的分类,需要在吸收国外技术的基础上结合其特点进行改进。
2.2 论文期刊分布分析
据统计,112篇期刊论文分布在57种期刊上,其中有79篇发表在核心期刊上,一定程度上说明该研究成果质量较好。排名第一的《计算机工程与应用》发文量为14篇,而三大计算机权威刊物《计算机学报》、《计算机研究与发展》、《软件学报》载文量仅为0篇、1篇、0篇,这说明国内高水平成果较少,研究有待进一步发展。
SVM文本分类研究可划分为理论研究和应用研究两方面,研究成果都在快速增长。理论研究成果最多,有83篇,主要集中在算法改进方面,反映出基础算法受到普遍重视,也是理论研究的核心内容。应用研究方面有45篇,主要涉及网络资源的分类组织。过去10年,随着互联网应用的普及,网络资源呈指数级增长,网页是网络资源的主体,对网页的自动分类自然也就最受关注。电子邮件也是网络应用的主要内容之一,邮件分类和垃圾邮件过滤在过去几年属于热门研究的课题。这方面本文统计的文献不多,可能是因为邮件过滤涉及到的技术相当广泛,SVM文本分类仅属其中一种。上述论文合计128篇,代表近10年国内理论实践两方面研究成果。
3 SVM文本分类理论研究
3.1 比较研究
研究表明,SVM文本分类具有以下适应性:①文本分类处理的样本空间非常庞大,样本的维数也很高,SVM对于高维问题具不可比拟的优势;②文本向量特征相关性大,许多文本分类算法建立在特征独立性假设基础上,受特征相关性的影响较大,而SVM对于特征相关性不敏感;③文本向量存在高维稀疏问题,一些文本分类算法不同时适合于稠密特征矢量与稀疏特征矢量的情况,但SVM可以胜任;④文本分类样本收集困难、内容变化迅速,而SVM能够找出包含重要分类信息的支持向量,是强有力的增量学习和主动学习工具。参考文献[1]阐述了文本分类算法性能评价体系,介绍了评价的试验平台Rainbow,通过试验比较,证明了SVM分类性能的优越性。不同分类方法有不同的特点,对分类方法一般从泛化能力、训练速度及模型复杂性等方面比较。很多研究者把SVM与朴素贝叶斯(NB)、K一最近邻(KNN)、神经网络等方法进行试验比较,结果都证明SVM适合文本分类。
3.2 算法研究
研究表明,SVM虽然适合用于文本分类,但也存在不足。对此研究者纷纷提出各种改进算法。纵观过去十年国内研究成果,对SVM文本分类的改造主要从两方面进行:
一是与云模型、空间向量模型、K临近、岭回归、潜在语义索引等方法结合,以提高分类的正确率和速度。机器学习关心两个主要问题:泛化能力与训练及测试速度,而上述方法可以极大提高训练速度与泛化能力。
二是从SVM算法结构人手,针对不同问题提出相应改进方法,扩展SVM对文本分类的适用性。①针对海量样本训练出现训练速度慢、占用内存多等不足,提出分块算法、分解算法和序列最小优化算法等。其共同特点是分而治之,将大训练集分解成小的工作子集,训练在子集上循环迭代而得到分类器。②先验知识SVM算法。SVM对样本需求量大,对样本标记耗时耗力,参考文献引入先验信息以减少所需样本的数量。通过定义置信度标准化函数f和松弛变量标准化函数g,把表示先验知识的置信度集成到由松弛变量控制的软间隔分类器中,把先验知识表示的规则应用到训练样本集合,得出样本分类标记的置信度,由此确定支持向量离分类超平面的距离。该方法实质上是把传统SVM的最大化分类间隔推广为最大化带权的分类间隔,而这种权值由应用背景的先验知识决定。③增量学习SVM。鉴于简单的批量学习模式无法适应样本集的频繁更新,增量学习(或称在线学习)SVM得到广泛研究。参考文献[8]利用RBF核函数的局部性,仅对新训练样本的某一大小邻域内且位于“可能带”-扣的训练样本集进行重新训练,实现对现有SVM的更新。也有研究通过对新增文本集的KKT条件的分析,研究加入新增文本后SVM的变化,论证各自的增量SVM文本分类算法。④多核SVM学习算法。针对文本分类通常包含多异类数据源的特点,参考文献[11]提出了多核SVM学习算法,将分类核矩阵的二次组合重新表述成半无限规划,说明其可以通过重复利用SVM来实现有效求解。另外还有基于EM算法的
迭代SVM文本分类、基于粗糙集的SVM文本分类、基于离散核的SVM文本分类、交互支持向量机、主动学习支持向量机、加权近似支持向量机等,目标为简化计算过程,提高分类速度,扩展其适应性。这些研究针对不同问题提出相应处理方法,在很大程度上丰富了标准SVM文本分类技术,提高了其泛化能力和实用价值。
3.3 针对多类问题的扩展
SVM解决多类分类主要有两种方法:第一,在所有的训练样本上求解一个大的二次规划问题,同时将多类分开,如C&S方法等。这类方法在思想上比第二种方法简单,但求解这样一个大的多类二次规划其计算复杂度大大增加,训练时间较长。第二,构造多个两类分类问题,然后以批模式训练多个二值分类器,再将它们进行集成,主要包括1一a―r(1一against―rest),1一a一1(1一against一1)和DDAGSVM(directed acyclicgraph SVM)等方法。
参考文献[12]在分析第二种方法各类算法及其局限性的基础上,用一种基于二叉树的支持向量机多类分类方法,并与预抽取支持向量以及循环迭代算法相结合,克服了各方法的缺点,同时解决了多类分类中经常出现的不可分区域的分类问题。两类分类问题中的增量学习SVM是为了适应样本的频繁更新,而参考文献[13]在解决多类文本分类时,在增加新类的情况下提出了类别的增量学习CIL(Class―Incremental Learning)方法。其类别扩充方式分为增量模式和批模式。前者新类加入后原来分类器需要更新,但只需要建立一个分类器。而后者则从两类开始迭代使用CIL直到获得当前类别的多类分类器。实验表明增量方法可大大减少新类增加时分类器更新所需时间。参考文献[14]结合本体知识,给出了一种基于概念向量的树型SVM多类分类方法。与传统方法抽取关键词构成向量不同,该方法抽取的是概念向量,训练时先对训练数据进行两类聚类,构造二值分类器,层层进行下去,形成一棵二叉树结构。分类时从树根开始调用二值分类器,直至到达叶结点。使用概念向量进行分类和聚类,降低了维数,正确率和速度都得到了提高。
另外,针对一个文本同属多个主题,参考文献[15]提出基于模糊SVM的多主题文本分类算法。它用1一a―r方法训练子分类器,计算待分类文本到每个超平面的距离,依据距离得到隶属度向量,再根据隶属度向量判定该文本所属主题。这种算法允许训练样本有多个主题,对待分类样本也可实现多主题输出。针对同样的问题,参考文献[16]提出了超求支持向量机兼类文本分类,对具有同一兼类的文本,在特征空间中求得一个能包围该类尽可能多文本的最小超球,使各类文本之间通过超球分开。对于分类文本,计算它到各超球球心的距离,根据距离判定该文本所属的类别。由于每个超球的训练只针对一类文本,因此计算复杂度低,训练速度得到提高。SVM对两类问题具有明显优势,而对多分类存在不足,通过算法改进克服了缺陷,推广了在多分类问题上的应用。
4 SVM文本分类应用研究
SVM文本分类主要应用在网络资源分类组织上,本文统计到相关文献45篇,内容主要涉及网页分类、搜索引擎、学科导航、邮件过滤及其他方面研究。
4.1 网页分类与Web挖掘
网页分类是网络资源组织的重要形式。本文检索到相关文献23篇,主要涉及标记加权方案、预处理算法等。理论研究中的改进研究和与其他技术的结合成为这方面进一步发展的着力点,如SVM―KNN组合算法、直推式学习、决策树SVM、与主成分和熵值相结合、近似SVM等。今后发展中,如何进行更有效地分词、如何评估网页分类效果等问题还需要深入探讨。
4.2 搜索引擎
门户网站与搜索引擎相结合是近年来网络信息产业发展的主要特点。将SVM文本分类用于搜索引擎可以提高其资源采集效率。主题搜索就是一种实现方式。面向主题的搜索引擎一般分为确定例子网页、提取特征、信息采集3部分,而信息采集事实上就是文本分类的过程。与通用搜索引擎相比,面向主题的搜索引擎只搜索整个网络的特定子集,从而提高了搜索速度。另外,借助SVM文本分类技术,搜索引擎可以实现个性化的信息订购。
4.3 学科导航
学科导航是数字图书馆的重要研究内容,旨在帮助专业研究人员按学科、主题或知识门类浏览各类学术资源。学科导航的文档相关性很强。参考文献[18]介绍了SVM―KNN算法,对两种算法各自的优缺点扬长避短。在相同的惩罚系数下SVM―KNN算法对核函数的参数选择不敏感,分类人员可以选择自己熟悉的核函数。实验证明,这种算法是解决学科导航问题较好的办法。
4.4 邮件过滤
电子邮件是互联网的重要应用领域,而“不请自来”的垃圾邮件经常侵占用户邮箱空间、浪费人们时间和金钱、传播非法信息、骚扰用户正常生活,可谓“仅次于计算机病毒的第二大互联网公害”。反垃圾邮件的措施有用户举报、制定相关法律和技术措施等。其中技术措施是最重要的一环。电子邮件主要由非结构化数据和结构化数据两部分组成,非结构化的数据包括主题和正文,它允许各种形式的自然语言。对非结构化部分的处理实质上就是文本分类问题。
SVM文本分类被广泛应用于邮件过滤主要解决两方面问题:一是提高分类准确度;二是提高执行效率。如参考文献[19]使用互信息度函数,结合z一测试进行特征选择,使用SVM构造分类超平面来进行文本分类,提高了过滤的准确性。参考文献[20]则采纳了分块及基于聚类中心的SVM算法,减少了复杂度,提高了过滤模块的执行效率。
4.5 专利文本分类
专利文献的分类是专利信息检索的基础,目前这方面有不少研究成果。例如参考文献[21]阐述了SVM―KNN组合改进算法在专利文本分类中的应用;参考文献[22]用SVM、Naive Bayes、RBFNetwork三种机器学习算法分别进行专利样本的分类,对结果进行了验证,表明SVM的分类效果最好。专利文献范围广泛,运用机器学习进行分类时,应该结合具体专利的特点进行特征抽取。如何提高分类准确度还需要进一步研究。
此外,SVM文本分类的应用研究还有很多,如参考文献[23]将SVM应用于蒙文文本分类代表了汉语之外的研究成果,参考文献[24]研究了SVM在公安情报自动分类系统中的应用,参考文献[25]研究了SVM在互联网内容监管系统中的应用。互联网的发展与普及带来了信息量的急剧增长,SVM文本分类的应用研究将受到更多学者的关注。
5 SVM文本分类的不足之处
通过研究我们知道,SVM文本分类具有很多优点,但实际应用中由于特征维过大导致其分类技术存在以下缺点:①输入量太大,分类过程中的计算量很大,训练时间长;②不能确定数据中哪些特征是冗余的,哪些是有用的,哪些作用大,哪些作用小;③特征向量的维数很难确定。另外,SVM文本分类性能的好坏在很大程度上依赖于核函数的选择,针对特定问题没有具体方法指导选择什么样的核函数。对于实时数据分类的速度还不能令人满意,虽有学者提出SM0等方法,但还需要进一步研究。现有SVM理论仅讨论具有固定惩罚系数的情况,实际上正负样本的两种误判造成的损失往往是不同的。
作为新的分类方法,SVM还有许多问题需要解决如核函数选择,高效的特征选择,先验知识引入提高SVM的泛化能力,对大样本训练速度的提高,应用领域的扩展等。但我们相信随着SVM理论本身的不断完善和发展,以及它与其他诸如聚类、遗传算法、云模型等方法的互相结合与渗透,今后它必将在数据挖掘及其它相关领域得到广泛的应用。
转载注明来源:https://www.xzbu.com/1/view-153629.htm