您好, 访客   登录/注册

基于语义强化和特征融合的文本分类

来源:用户上传      作者:

  摘  要: 文本分类是信息检索、机器问答的基础性任务,是自然语言理解的一项重要语义任务。本文提出了一种基于语义强化和特征融合的(LAC)分类模型。该模型首先将Word2vec嵌入的词向量输入LSTM进行句子语义的提取,然后将提取的语义特征输入Attention层进行特征的强化,同时用卷积层提取文本的局部特征,其次把强化的语义特征和利用卷积层提取的局部特征进行融合,最后经池化层对特征进行降维,并将经池化后的特征向量输入到全连接层,引入Dropout防止过拟合,得到最终的分类结果。由于CNN提取特征时存在忽略上下文信息的弊端,所以提出用LATM提取上下文信息,然后进行特征的融合的方法;另外,由于LSTM在捕获句子信息时会因为距离过长而出现的信息遗漏现象,所以提出将Attention作用于LSTM。通过实验表明,本文提出的模型比单独的CNN模型、以及先用LSTM提取语义信息,在进行局部特征提取的LSTM-CNN模型的效果更好。
  关键词: 特征融合;神经网络;LSTM;Attention;自然语言处理
  中图分类号: TP391    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.01.046
  本文著录格式:王子牛,王宏杰,高建瓴. 基于语义强化和特征融合的文本分类[J]. 软件,2020,41(01):211215
  【Abstract】: Text classification is a basic task of information retrieval and machine question answering and an important semantic task of natural language understanding. This paper proposes a classification model based on semantic reinforcement and feature fusion (LAC). The model will first word sentence semantic vector input LSTM are extracted, and then extract the semantic characteristics of the input characteristics of the strengthening of the Attention layer at the same time the local characteristics of convolution layer was used to extract text, secondly to reinforce the semantic characteristics and utilization of the local characteristics of convolution layer of fusion, finally the pooling layer for feature dimension reduction, and after pooling feature vector input to full connection layer, introducing the Dropout prevent fitting, get the final classification result.Due to the disadvantage of ignoring context information when CNN extracts features, a method of extracting context information by Lstm and then fusing features is proposed. In addition, since LSTM may miss information due to the long distance when capturing sentence information, it is proposed to apply attention to LSTM.Experiments show that the model proposed in this paper is better than the CNN model alone and the LSTM model used to extract semantic information first, and the lstm-cnn model used to extract local features is better.
  【Key words】: Feature fusion; The neural network; LSTM; Attention; Natural language processing
  0  引言
  隨着互联网技术和科学技术的不断发展,人们的交流沟通方式发生了翻天覆地的变化。聊天的媒介由最原始的纸质媒介转变为现在的电子媒介,一些新型的电子工具,例如:微博、微信、QQ等时时刻刻在影响并且改变着人们的生活。随着海量数据的不断产生,国家对人工智能[1]、大数据等新兴技术的宣传和投入,人们如何有效合理的利用这些信息渐渐成为了科研工作者的研究重点。因此,文本分类进行理论的研究以及具体的实践,对于解决上述的问题,有着十分重要的现实意义。中文文本分类是自然语言处理(NLP)领域的一个重要分支,是信息检索[2]、数字图书馆[3]等领域的基础技术。传统的文本表示方法存在着维数高,数据稀疏等问题,随着深度学习在文本方面的运用,这些问题渐渐被解决。目前自然语言处理任务的两大主流模型是卷积神经网络(CNN)和循环神经网络(RNN)以及他们的变体[4]。这些模型都取得了良好的效果。   文本分类技术,在它的漫长的发展过程中,可以被概括为以下三个阶段:基于知识工程(KE)、基于机器学习(ML)和基于神经网络(NN)。第一,探索阶段(1960-1963):1960年,Maron发表了第一篇关于文本分类的论文,并对文本自动分类进行了初步研究[5];1963年,Gerald Salton提出了矢量空间模型(VSM)用于文本的表示[6]。第二,理论研究阶段(1963-1989):侯汉清教授对中文文本分类的发展方向进行了理论性的指导同时介绍了国外计算机在自动分类系统、分类检索等方面的运用。在此之后,国内才正式开始了对中文文本分类技术的研究。1987年,王继成等人研究出了中文文本分类系统。第三,应用实践阶段(1990年至今):机器学习方法与知识工程方法相比具有精度高、易于实现的优点。基于知识工程的文本分类,因其可移植性差、不可跨领域操作、规则制定过程繁杂等缺点,90年代末期被机器学习的分类方法[7]所取代。
  深度学习最初运用于图像识别和语音识别领域,近些年在自然语言处理领域也取得了很大的成功[8]。特别是在2014年Kim.Y提出CNN用于句子分类之后,深度学习技术逐渐取代了传统的机器学习方法已成为主流文本分类技术。2015年,Lai等人提出了一种无人工特征的循环卷积神经网络分类方法RCNN[9],大大提高了文本分类的正确性;2016年,Bahdanau等将注意力机制应用到自然语言处理(NLP)领域的机器翻译[10],在翻译准确率上较传统神经网络模型有较大提高;2016年,Yang等人提出了一种用于文档分类的层次注意力机制网络,在构建文档时对文档内容赋予不同的权重,简称HAN[11];2017年,Joulin等人提出了一种高效的文本分类模型fastText[12],Johnson和Zhang提出了一种基于单词粒度级别的深层CNN模型,简称DPCNN[13],通过增加网络的深度提取更加优质的特征,进而提高分类的性能;2018年,黄民烈教授团队提出了一种具有自适应注意力机制的密集型连接的卷积神经网络,简称DCCNN[14],由于获得的特征尺度比较丰富,注意力机制又能够自行的选择合适的特征用于文本分类,预测精度都有所提高;2019年,Shen和Yi kang等人提出ON-LSTM[15],这篇论文的想法是将树结构集成在递归神经网络中,在语言建模方面取得良好的性能。
  深度学习在文本处理领域实现了重大突破,获得比较好的成绩。这跟文本向量的表示和文本特征的提取有密切的关系。文本向量空间模型表示方法与神经网络的组合使得提取到的文本特征向量越来越精简而具有代表性。深度学习虽然提供了一种有效的方法来减少人工提取特征的数量,但是这些方法仍然是需要词汇资源,都依赖于获得高级别的特征。
  本文中提出一种基于语义强化和特征融合的模型。该模型利用长短时记忆网络(LSTM)提取句子中重要的语义信息,利用自注意机制(Attention)对句子中的单词的关联性做进一步的强化,然后与利用CNN提取的特征进行融合。这些都没有使用先检的知识或者自然语言处理系统,没有利用任何的外部的语法信息。本文基于THUCNews新闻文本分类数据集的子集,分别对CNN、LSTM-CNN、LSTM-ATT-CNN进行了相关的实验,结果表明本文提出模型更加具有竞争性,取得了更好的效果。
  1  LAC模型
  1.1  模型结构图
  本文提出的LAC模型结构如图1所示。
  该模型由8部分组成:
  (1)输入层:输入句子。
  (2)嵌入层:将句子中单词利用Word2vec映射到低维度。
  (3)LSTM层:利用LSTM层获取文本语义   特征。
  (4)Attention层:进一步强化LSTM提取的语义特征。
  (5)卷积层:提取文本的局部特征。
  (6)特征融合:利用TensorFlow框架将(4)和(5)的特征融合,获得更加科學的表达。
  (7)池化层:特征降维,减少过拟合。
  (8)SoftMax层:对文本进行分类。
  1.2  文本向量化
  为了机器能够理解自然语言,首先需要将自然语言符号数学化,即文本向量化[16]。文本向量化直观理解为将一篇文章表示为0、1向量。
  文档用Z表示,一篇文档用Y个句子表示,句子用向量S表示。句子S由N个单词组成, 表示一个单词向量。S中的每一个单词 进一步被表示为 , 是一个需要学习的参数,v是指词汇表的大小, 是指词向量的嵌入维度。 是大小为 的向量,在索引为 的位置值为1,其他位置值为0。
  1.3  LSTM网络模型
  循环神经网络(RNN)在学习模型参数时,随着网络层数的增加,会出现只有靠近输出端的参数更新而远离输出端的参数难以学习和更新的情况,为了解决这个问题提出了RNN的变体长短时记忆网络(LSTM)[17]。它被用于机器翻译[18]、图像分析[19]、语音识别[20]等许多的领域,渐渐成为解决自然语言处理问题的主流方向。LSTM模型如图2所示。
  2  实验结果分析
  2.1  数据集
  基于THUCNews新闻文本分类数据集的子集,选取金融、房地产、体育、家居、教育、科技、时尚、政治、游戏、时尚等十大类作为实验数据,每个类别6500条数据。数据集语料库分配:训练集5000*10,验证集500*10,测试集1000*10。
  2.2  实验参数
  2.3  实验结果对比
  本文的实验涉及到的开发工具跟实验环境如下:
  硬件环境:CPU:Inter(R) Core(TM) i5-7500 CPU@3.4 GHz 3.41 GHz,   内存为8 GB,硬盘:1 TB;GPU:GeForce RTX2080Ti
  软件环境:Windows 10(基于X64的处理器),JetBrains PyCharm 2018.2.5 x64
  开发语言:Python和Tensorflow深度学习框架为了验证本文提出模型的有效性,分别与CNN模型、LSTM-CNN模型进行了实验对比。实验结果见表2。
  不同模型在训练过程中的损失率、准确率对比图,见图3,图4。
  损失函数对比如图3所示。
  准确率对比如图4所示。
  通过比较评价指标以及模型的加载时间可以看出LSTM-ATT-CNN在各方面都有提高,在第四个迭代周期,模型的准去率和损失率基本趋于平稳,而且加载模型的损耗也比较小。准确值相比于CNN提高了:3.30%,丢失率降低了:59.89%,F1值提高了:2.62%。准确值相比LSTM-CNN提高了:0.78%;丢失率降低了:19.03%,F1值提高了:1.19%。这说明本文提出的基于语义强化和特征融合的模型,更好的考虑了文本的语义信息,更准确地表达文本语义,弥补了CNN提取特征的不足,进一步提高了分类的准确性。
  3  结论
  本文提出了一种基于语义特征强化和特征融合的神经网络模型。该模型先通过LSTM获得文本语义,在通过注意力机制捕获句子中最重要的信息,然后与CNN提取的局部特征进行特征的融合,最后利用Softmax函数进行分类。通过相关实验证明了该模型的有效性。
  随着技术的不断进步,文本形式越来越多样化,结构越来越复杂化,更加优秀的模型还需要进行深入的研究。
  参考文献
  [1] 刘强. 人工智能在计算机网络技术中的实践与探索[J]. 软件, 2018, 39(11): 242-245
  [2] 谢子超. 非结构化文本的自动分类检索平台的研究与实现[J]. 软件, 2015, 36(11): 112-114
  [3] 徐彤阳, 尹凯. 基于深度学习的数字图书馆文本分类研究[J]. 情报科学, 2019(10): 003
  [4] 孙承爱, 丁宇, 田刚. 基于GLU-CNN和Attention-BiLSTM的神经网络情感倾向性分析[J]. 软件, 2019, 40(7): 62-66.
  [5] Maron M. E, Kuhns, J. L. On Relevance, Probabilistic indexing and Information retrieval[J]. Journal of theAcm, 1960, 7(3): 216-244.
  [6] Broke H, Bernick M. Automatic document classification[J]. Journal of the Acm, 1963, 10(2): 151-162
  [7] 周捷, 朱建文. 机器学习分类问题及算法研究[J]. 软件, 2019, 40(7): 205-208
  [8] 李同欢, 唐雁, 刘冰. 基于深度学习的多交互混合推荐模型[J]. 计算机工程运用, 2019, 55(01), 135-141.
  [9] Lai, S, Xu L. Recurrent convolutional neural networks for text classification[J]. AAAI Conference on Artificial Inte-lligence, 2015, 333: 2267-2273
  [10] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL]. (2016- 05-09)[2019-10-09]. https://arxiv.org/abs/1409.0473
  [11] Yang Z, Yang D. Hierarchical attention networks for doc-ument classification[EB/OL]. (2017-09-15)[2019-10-09]. https:// arxiv.org/abs/1707.00896.
  [12] Joulin. Bag of tricks for efficient text classificatio[EB/OL]. (2016-08-09)[2019-10-09]. https://arxiv.org/abs/1607.01759.
  [13] Johnson, Zhang. Deep pyramid convolutional neural net-works for text categorization[J]. Association for Com?pu-tational Linguistics, DOI: 10.18653/v1/P17-1052
  [14] Shi yao Wang, Minlie Huang. Densely connected cnn with multi-scale feature attention for text classification[J]. Twenty-Seventh International Joint Conference on Artificial Intelligence, DOI:10.24963/ijcai.2018/621
  [15] Shen, Yikang, Tan, Shawn, Sordoni, Alessandro, and Courville, Aaron. Ordered neurons: Integrating tr-ee struc-tures into recurrent neural network[EB/OL]. (2019-05-08) [2018-10-09]. https://arxiv.org/abs/1810. 09536?context=cs
  [16] 黃丹丹, 郭玉翠. 融合attention机制的 BI-LSTM-CRF中文分词模型[J]. 软件2018, 39(10): 260-266.
  [17] Greff K, Srivastava R K, Koutnik J. LSTM: A search space odyssey[J].IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(10): 2222-2232.
  [18] Cui Y, Wang S, Li J. LSTM neural reordering feature for statistical machine translation [EB/OL]. (2016-06-12) [2019- 10-09]. https://arxiv.org/pdf/1512.00177.pdf.
  [19] Theis L, Bethge M. Generative image modeling using spatial LSTMs[C]//MIT. Advances in Neural Information Processing Systems. Massachusetts: MIT Press, 2015: 1927-1935.
  [20] Weninger F, ErdoganH, WatanabeS. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR[C]//Yeredor A, Koldovsky’Z, Tichavsky'P. Latent Variable Analysis and Signal Separation. Berlin: Springer International.
  [21] 赵富, 杨洋等. 融合词性的双注意力Bi-LSTM情分析[J]. 计算机运用, 2018, 38(S2), 103-106+147.
转载注明来源:https://www.xzbu.com/8/view-15121474.htm