深度学习视域下的文本表示方法研究
来源:用户上传
作者:
摘 要:文本表示不仅是自然语言处理的基础工作,还是信息检索、文本分类、问答系统的关键。就传统文本而言,主要采取计数表示形式,此方法设定词和词之间是相互独立的,直接忽视了文本语义信息,而且在选择特征时,引进了一些人为影响因素,从而获取了高纬度与高稀疏文本特征,无法充分表示文本。这就需要进一步创新设计文本表示方法,据此,该文主要对深度学习视域下的文本表示方法进行了详细分析。
关键词:深度学习 文本表示 方法
中图分类号:TP18;TP391 文献标识码:A 文章编号:1672-3791(2019)06(c)-0030-02
1 文本表示方法分析
1.1 布尔逻辑横型
所谓布尔逻辑模型实际上就是二元逻辑,假设文本特征的两种情况,即出现与不出现。布尔检索法即通过布尔运算符进行检索词连接,并基于计算机进行逻辑运算,寻找信息的方法。此文本表示方法符合人们的思维习惯,表达直观且清楚,易于通过计算机加以实现。但是,却难以切实反映概念间内在语义联系,其所有关系都是被简单匹配替代的,经常无法把用户信息需要转变为准确的布尔表达式,还经常出现漏检现象。
1.2 One-hot
One-hot把单词和实数向量相关联加以表示。具体而言,假设字典维度为V,其中单词有且只有一个编号,在n个单词出现时,其所相应向量只在第n个位置显示数值为1,这就表示字典的n。在文档中含有大量单词,其组合成的向量就是文章表示。One-hot累加对应向量代表则称之为词袋表示(BOW)。此方法简单,但计算中容易出现两种问题,其一,向量维度为字典大小,词典单词量过大,在计算时很容易出现维数灾难问题;其二,此表示只包括单词在词典中的索引与词频信息,无法为后续文本处理提供有价值的信息。
1.3 向量空间模型
向量空间模型(VSM)将文本内容处理简化,转变为向量空间的运算,通过相似度表示文本语义相似性。VSM属于经典文本表示方式,在信息检索中的应用非常广泛,其与词袋模型维度类似,是以统计规则为基础进行文档单词权重信息计算的。然而,词典模型维度是以字典长度为载体的,VSM却可以表示就自身模型需求,选择单词或词组,再为term赋予权重。
1.4 LDA
LDA与LSI等主题模型寻求潜藏语义单元,主要是通过无指导学习方式基于文本找出隐含语义维度,也就是Topic。LDA文本表示方法视域下,文档代表主题组成的概率分布,各主题代表很多单词构成的概率分布。由于可能两个文档之间是相互关联的,所以在进行文档相关性判断时,应对文档语义进行充分考虑,但是主题模型是充分挖掘语义的重要工具,LDA则是其中最有效的主题模型。在主题模型中,主题代表概念与方面,表示为相关单词,利用单词条件概率进行其与主题相关性的衡量。
1.5 Word embedding
One-hot文本表示方法所面临的维度灾难问题,通过稀疏方式进行存储,会更加简捷,也就是为各单词分配相应ID。这种简洁的表示方式与最大熵、SVM、CRF算法相结合,能够更好地完成主流NLP任务。但是此表示方法默认了单词间的孤立性,进而忽视了语义关联。
2 深度学习视域下的多类文本表示方法
2.1 问题描述
文本分类与检索在关键就在于文本表示,其决定了语义索引的正确性。语义锁频就是把文档反映到相同特征空间,计算其相似度,因此文本表示与文本分类精确度密切相关。获取良好文本表示的重要基础是特征提取,现阶段主要的特征表示方法有很多,主要是以BOW为基础,通过LDA、LSI、PLSI等方法,基于SVD进行文档矩阵分解,促使其映射到小于原始空间的空间,以此获得文本表示。但是,其打破了文本原始结构,缺失语义,而且只能够获得单词有限的信息,无法深层次挖掘文本特征表示,使得训练的分类器无法辨别待分类测试样本。
Hinton和Salakhutdinov根据前人研究提出了双层RSM模型,即深度学习视域下探索文本表示,实验结果证明方法效果良好。但是其是以权重共享为基础的,并且只有两层,在降维时,文档确实信息过多,无法获取充足学习文档表示,造成模型最后所学不同文档表示并不存在显著性差异。
以传统文本表示方法的高维度、高稀疏、语义缺失等不足为前提,根据深度学习提取特征优势,提出了以深度信念网络(DBN)为载体的融合DBN的优化模型,即HDBN。在模型底层通过DBN初始降维,有效保存文档信息,然后与DBN再结合降维,获得更好的高层文本特征。HDBN模型遵守标准DBN模型训练方法,即无监督训练和有监督调整,引进DBN初始降维,HDBN模型可以准确获得文档向量表示。
2.2 HDBN模型
2.2.1 模型设计
由于训练复杂度与模型效率,选取双层DBN模型。以DBN模型为载体,既能够自动化提取文档特征,又能够对文档输入降维,还能够去除输入引发的噪声,最后以DBN模型为基础获取文档特征表示。DBN主要是由双层RBN构成的无向图连接模型,各层节点采样值都是通过双层连接节点共同计算获得的。DBN是由双层RBN构成的有向图连接模型,在进行预习训练时,上层输出,下层输入。在所有层训练完成以后,从上层渐渐向下层进行有监督调整。
HDBN模型选择双层DBN主要是由于在DBN層数超出两层之后,模型效果相对不足,尽管DBN在初始训练时,极易发生过拟合现象,但在高层的时候,却能够保持较好的特性。而且DBN模型训练太过复杂,所以,在HDBN模型选择双层DBN进行文本初始降维,再基于DBN模型后续训练,以此确保提取文本特征可以减少训练时间,大大降低复杂度与难度。
2.2.2 语义特征表示
BOW特征表示默认单词的文本地位一致,忽视了单词连接性。以HDBN模型为基础,探索更有效的形式文本输入表示,以此获得最佳特征提取,词向量是表示单词信息的方式,将此嵌入文本表示,有助于为提取高层文本表示引进有效特征。所以,探索以HDBN模型为基础的嵌入词向量文本表示。
首先,以词向量为基础嵌入的高纬度特征表示。以词向量为载体进行嵌入,使用单词对应词向量代替BOW相应单词。原始BOW属于固定长度行向量,转变一个向量。通过BOW文本表示形式,各元素代表当前单词出现在文本中的次数,在以词向量嵌入为基础的文本表示中,通过加权系数,表示单词在文本中的重要性。其次,以词向量为载体嵌入的关键词特征表示。此表示方式既能够降低文本输入向量维度,又能够提高训练效率与水平。在实验时,以TF-IDF为载体选择文档关键词,引进文档标签,设计标签权重计算,即:
文档个数为N,当前类别且包含单词文档个数为n,当前类别文档个数为m,不属于当前类别但是包含单词文档个数为k。通过公式进行文档单词TF-IDF计算,通过数值排序,选择一定量单词作为关键。与高维词向量表示相比,其称之为以关键词为基础的低维度词向量表示。
3 结语
总之,以DBN为基础并融合DBN的深度学习模型(HDBN)包含无监督预训练与有监督微调两大部分。此模型与其他方法不同,其具有其自身的独特优势,值得大力推广与应用,而且,基于关键词与嵌入词向量的文本输入表示更加有助于模型提取高层文本表示。
参考文献
[1] 任浩,罗森林,潘丽敏,等.基于图结构的文本表示方法研究[J].信息网络安全,2017(3):46-52.
[2] 刘婷婷,朱文东,刘广一.基于深度学习的文本分类研究进展[J].电力信息与通信技术,2018(3):1-7.
转载注明来源:https://www.xzbu.com/8/view-15002893.htm