您好, 访客   登录/注册

基于大数据挖掘技术的文本分类研究

来源:用户上传      作者:

  摘  要: 文本数据具有规模大、特征维数高等特点,当前文本分类方法无法刻画文本变化特点,使得文本分类正确率低、误差大、分类时间长,为了获得理想的文本分类效果,设计基于大数据挖掘技术的文本分类方法。首先对当前文本分类的研究进展进行分析,找出导致当前文本分类效果差的原因;然后,提取文本分类原始特征,并引入核主成分分析算法对原始特征进行处理,降低特征维数,简化文本分类器的结构;最后,采用大数据挖掘技术构建文本分类器,并与其他文本分类方法进行对比测试。测试结果表明,所提方法可以更好地描述文本变化特点,能够对各种类型文本进行准确识别和分类,文本分类精度超过95%,明显高于当前其他文本分类方法,并且所提方法的文本分类时间显著减少,具有更好的文本分类效果。
  关键词: 大规模文本数据; 高维特征; 大数据挖掘技术; 文本分类器; 分类精度; 分类时间
  中图分类号: TN911.1?34; TP391.9                 文献标识码: A                   文章编号: 1004?373X(2020)17?0126?04
  Abstract: Text data are of characteristics of large scale and high feature dimension. The current text classification methods fail to depict the characteristics of text change, which results in low accuracy, large error and long duration of the classification. In order to get an ideal text classification effect, a text classification method based on big data mining technology is designed. The current research progress of text classification is analyzed to find out the reasons for the poor effect of current text classification. And then, the original features of text classification are extracted, and the kernel principal component analysis (KPCA) algorithm is introduced to process the original features, reduce the feature dimension and simplify the structure of text categorizer. Finally, the text categorizer is constructed with big data mining technology and compared with other text classifiers. The results of contrastive test show that the proposed method can better describe the characteristics of text change, and accurately recognize and classify various types of texts. The accuracy of text classification of the proposed method is above 95%, which is significantly higher than other current text classification methods. Moreover, the classification duration is significantly reduced and the classification effect is better.
  Keywords: large?scale text data; high?dimensional feature; big data mining technology; text classifier; classification accuracy; classification duration
  0  引  言
  随着互联网技术的不断成熟和迅速发展,每天会产生大量的数据,其中电子文本是一种最常用的数据形式,可以采用网页、邮件、微博等形式表示[1?3]。相比普通文本,电子文本是一种自然、非结构的数据,如何从大量的电子文本中找到用户真正想要的数据至关重要。文本分类是快速、准确搜索电子文本的基础,因此,如何建立更优的文本分类方法具有十分重要的意义[4?6]。
  在20世纪中期,一些发达国家已经开始对文本分类问题进行研究,如有学者提出了基于词频统计的文本分类方法,有学者提出了基于朴素贝叶斯的文本分类方法,它们均属于基于传统统计学理论的概率分类方法,需要一定的专家参与,文本分类自动化程度低、分类效率低、准确性差,具有十分明显的局限性[7?9]。近年来,随着机器学习理论研究的不断深入和快速发展,其慢慢取代了传统统计学理论的文本分类方法,成为现代文本分类的主要研究方向[10?12]。当前主要有基于BP神经网络的文本分类方法、基于支持向量机的文本分类方法。BP神经网络属于经验风险的机器学习算法,训练过程中收敛效率低、文本分类结果不稳定,使得文本分类结果的可信度低;支持向量机属于结构风险的机器学习算法,文本分类效果要优于BP神经网络,但其训练时间耗费长,影响文本分类效率,无法适应当前大规模电子文本计算处理的发展需求[13?15]。文本分类特征的选择十分关键,特征太多,使得文本分类结构过于复杂,当前采用主成分分析算法对文本分类特征进行选择,认为特征之间有一种线性联系,这与实际情况不相符,无法获得较好的文本特征选择结果[16]。   为了解决当前文本分类方法存在精度低、分类时间长等不足,本文设计了基于大数据挖掘技术的文本分类方法(KPCA?ELM),并与其他文本分类方法进行对比测试,验证了KPCA?ELM的文本分类的有效性和优越性。
  1  文本分类的基本原理
  文本分类属于模式识别的研究范围,就是根据文本特征将文本划分为多种类型。由于文本是一种特殊数据,因此,首先需要对文本数据进行预处理,主要包括:分词、去停用词等操作;然后从预处理后的文本数据中提取文本分类原始特征,并从原始特征选择最优的文本特征,减少文本分类的输入向量数量;最后选择一种算法建立文本分类器,文本分类的基本原理可以采用图1进行描述。
  2  大数据挖掘技术的文本分类方法具体设计
  2.1  文本预处理
  文本是一种特殊数据,其不仅包括文本信息,同时还有超链接、动态图等其他非文本信息。这些非文本信息对文本分类结果没有影响,因此需要对文本进行预处理,去除这些无效信息,保留有用文本信息,主要包括:分词操作、去停用词操作。本文首先采用基于字典匹配的分词技术,将一个句子拆分成一个个词语,然后进行去除停用词操作,去除一些对文本内容理解没有贡献的词,如虚词,减少分类器的时间消耗。
  2.2  提取文本分类特征
  采用[F]作为文本分类的原始特征,由于[F]包含了许多特征,特征的维数高,而且一些特征之间会互相干扰,因此,对原始特征进行选择,减少文本分类特征数量。
  2.3  选择文本分类特征
  当前文本特征选择的方法比较多,本文采用核主成分分析(KPCA)算法选择最有效的文本分类特征。KPCA引入函数[Φ]将原始文本分类特征向量[xk]进行转换,应满足:
  选择前[k]个值较大的文本分类特征作为有效的特征进行建模。
  2.4  文本分类算法
  极限学习机(ELM)是只有一个单层的向前神经网络,其工作原理和传统神经网络不同,如BP神经网络的权值通过梯度下降算法得到,而ELM的权值通过解析表达式得到,没有中间迭代计算,ELM的运行速度更快。设[x]表示输入样本的值,隐藏层的阈值、权值和节点分别为[bi],[ai]和[L],那么ELM的输出值为:
  2.5  大数据挖掘技术的文本分类步骤
  大数据挖掘技术的文本分类步骤具体如下:
  Step1:从互联网上收集大量电子文本数据,并对每一类型进行分词和去停用词处理。
  Step2:计算每一篇电子文本的词的权值,所有詞的权值组成原始特征向量集合。
  Step3:采用KPCA从原始特征向量集合中提取重要特征向量。
  Step4:将重要特征向量作为输入,文本类型作为输出,采用ELM对训练样本集进行学习,建立文本分类器。
  Step5:对于文本分类的测试数据集,提取和选择特征,并用建立的分类器进行分类,输出文本分类结果。
  综上可知,基于大数据挖掘技术的文本分类流程如图2所示。
  3  仿真测试
  3.1  测试环境设置
  为了分析基于大数据挖掘技术的文本分类方法(KPCA?ELM)的有效性,采用Python语言编程实现文本分类算法,测试环境参数设置如表1所示。
  本文采集多种类型的文本数据,包括文化、经济、政治、体育、军事、旅游,它们的训练样本和测试样本数量具体如表2所示。
  为了测试基于大数据挖掘技术的文本分类方法的优越性,选择基于BP神经网络(BPNN)、支持向量机(SVM)进行对比测试,采用文本分类精度、训练时间和测试时间对文本分类效果进行评价。
  3.2 文本分类精度对比
  采用BPNN,SVM和KPCA?ELM对表2中的文本训练数据进行学习,建立文本分类器,并采用文本分类器对表2中的测试样本进行分类,统计每一类文本的分类精度,得到它们的平均精度如图3所示。
  对图3的每一类的文本分类精度进行对比和分析,可以得到:
  1) BPNN的全部文本分类精度最低,这表明其无法描述各种文本的类型,文本分类的错误率高,主要是由于BPNN易出现“过拟合”分类结果,因此,文本分类效果差。
  2) SVM的文本分类精度高于BPNN,这是因为SVM克服了BPNN的“过拟合”分类缺陷,提高了文本正确分类的成功率,减少了文本的分类错误次数。
  3) KPCA?ELM的文本分类精度最高,这主要是因为KPCA?ELM通过KPCA对文本特征进行处理,去掉了一些对文本分类结果有不利影响的特征,并且采用ELM建立了更优的文本分类器,得到了理想的文本分类结果,对比测试体现了KPCA?ELM的文本分类的优越性。
  3.3  文本分类的训练和测试时间对比
  统计SVM,BPNN和KPCA?ELM的文本分类的训练和测试时间,分别如图4和图5所示。
  从图4可以发现:SVM的文本分类的训练时间最长,这是因为其文本分类的训练时间复杂度高,BPNN的文本分类训练时间次之,KPCA?ELM的文本分类训练时间最短,加快了文本分类的训练速度。同时,从图5可以看出:KPCA?ELM的文本分类测试时间明显少于SVM,BPNN的文本分类训练时间,提升了文本分类效果,可用于大规模文本分类。
  4  结  语
  结合文本数据的变化特点,以提高文本分类效果为目标,本文设计了基于KPCA?ELM的文本分类方法,采用KPCA对文本分类原始特征进行处理,简化特征,然后采用ELM构建文本分类器,文本分类测试结果表明,KPCA?ELM的分类精度高,文本分类时间少,可以满足文本处理的实际应用要求。   参考文献
  [1] 朱晋,怀丽波,崔荣一,等.基于小波分析的特征提取文本分类方法研究[J].中文信息学报,2018,32(11):49?54.
  [2] 宋呈祥,陈秀宏,牛强.文本分类中基于CHI改进的特征选择方法[J].微电子学与计算机,2018,35(9):74?78.
  [3] 万中英,王明文,左家莉,等.一种新的样本选择算法及其在文本分类中的应用[J].江西师范大学学报(自然科学版),2019,43(1):76?83.
  [4] 何明.一种基于改进信息增益特征选择的最大熵模型文本分类方法[J].西南师范大学学报(自然科学版),2019,44(3):113?118.
  [5] 景永霞,王治和,苟和平.基于矩阵奇异值分解的文本分类算法研究[J].西北師范大学学报(自然科学版),2018,54(3):51?56.
  [6] 陈凯,黄英来,高文韬,等.一种基于属性加权补集的朴素贝叶斯文本分类算法[J].哈尔滨理工大学学报,2018,23(4):69?74.
  [7] 刘发升,董清龙,李文静.变精度粗糙集的加权KNN文本分类算法[J].计算机工程与设计,2019,40(5):1339?1342.
  [8] 徐禹洪,黄沛杰.基于优化样本分布抽样集成学习的半监督文本分类方法研究[J].中文信息学报,2017,31(6):180?189.
  [9] 姚艳秋,郑雅雯,吕妍欣.基于LS?SO算法的情感文本分类方法[J].吉林大学学报(理学版),2019,57(2):375?379.
  [10] 陈波.基于循环结构的卷积神经网络文本分类方法[J].重庆邮电大学学报(自然科学版),2018,30(5):705?710.
  [11] 王根生,黄学坚.基于Word2vec和改进型TF?IDF的卷积神经网络文本分类模型[J].小型微型计算机系统,2019,40(5):1120?1126.
  [12] 谢金宝,侯永进,康守强,等.基于语义理解注意力神经网络的多元特征融合中文文本分类[J].电子与信息学报,2018,40(5):1258?1265.
  [13] 张小川,桑瑞婷,周泽红,等.一种基于双通道卷积神经网络的短文本分类方法[J].重庆理工大学学报(自然科学),2019,33(1):45?52.
  [14] 高超,许翰林.基于支持向量机的不均衡文本分类方法[J].现代电子技术,2018,41(15):183?186.
  [15] 段文影,饶泓,段隆振,等.基于IA参数寻优组合核的SVM文本分类研究[J].南昌大学学报(理科版),2018,42(3):289?292.
  [16] 郭超磊,陈军华.基于SA?SVM的中文文本分类研究[J].计算机应用与软件,2019,36(3):277?281.
转载注明来源:https://www.xzbu.com/8/view-15313883.htm