新闻文档关键词抽取技术研究

> 中国论文网 >
科技论文 >
新闻文档关键词抽取技术研究

新闻文档关键词抽取技术研究

来源:用户上传作者:

　　摘要关键词抽取是从文档中筛选出核心的词语，简要概括文档的主题。对于新闻文档来说，有效的关键词抽取可以帮助读者迅速筛选感兴趣的内容，提高用户体验。传统的关键词抽取技术主要考虑词语的统计特征，使得选出的都是出现频率较高的词语。然而有些关键词在文档中并没有很高的统计词频，这就造成文档和关键词之间较大的词汇差异。另外有些关键词语是由多个词组合而成，而这些词语并不存在于候选的关键词列表当中，这也会对关键词抽取的结果产生一定的影响。本文以新华社真实的新闻语料作为实验数据集，进行关键词抽取技术研究，通过构建“文档-关键词”翻译器，并对机器翻译的方法进行训练，提高文档词和关键词之间的翻译概率；把训练的模型进行抽象模型化，实现关键词抽取，取得良好的效果。同时，通过引入维基百科词条库进行词语合并，使得关键词抽取效果得到更进一步的提升。
　　关键词关键词抽取；新闻网页处理；机器翻译；短语合成
　　中图分类号 G2 文献标识码 A 文章编号 1674-6708（2015）136-0085-02
　　1 关键词特点和原理分析
　　关键词作为一篇文档的简要概括，通常是由几个词语组成。合适的关键词可以作为文档的高度概括，帮助读者快速浏览了解文档的主题内容。
　　关键词在期刊和会议论文当中通常是由作者自己标注，然而，对于大量的新闻文章往往没有关键词。因此如何自动地从新闻文档中抽取出合适的关键词具有很重要的实际应用及研究价值。
　　关于关键词抽取的大多数方法主要集中在对文档词的统计特性研究。这些方法有很大的局限性，特别是对于简短的文本内容，这些方法会表现出很差的效果。这样会产生文档词和关键词之间显著的词汇差异现象。
　　另外，关键词可能是一个单独的词语，也可能是由多个词语组合而成。因此如果不对文档分词后的词语进行适当词语合并，也会造成文档词与关键词之间的词汇差异。
　　从以上的分析当中我们可以看出，如何解决文档词与关键词之间的词汇差异是关键词抽取技术的关键。因此在本文中我们通过两种方式去解决词汇差异现象。
　　1）通过引入维基百科词条库，对分词后的词语进行词语合并处理，解决文档分词后不包括关键词的情况。
　　2）通过机器翻译模型，训练文档和关键词的转化概率模型，解决文档与关键词的词汇差异现象。
　　2 抽取算法
　　关键词抽取的方法大致可以分为监督和非监督
　　两种。
　　监督的方法把关键词抽取的问题当作一个二分问题，即将每一个候选的关键词分为关键词和非关键词。主要是将关键词出现的频率和位置信息当作特征来进行关键词分类。将更多的语义信息特征融合到分类算法当中。基于监督的关键词抽取算法需要人工标注数据作为训练集，这是非常耗时的。非监督的算法通常根据各种特征值给每一个关键词计算相应的得分，然后根据得分排序的结果筛选出前K个作为文档的关键词。因此，基于非监督的算法在实际当中往往更受研究者关注。
　　由于有些关键词在文档中出现并不多，甚至没有出现过，这种关键词和文档之间的词汇差异现象是一种常见现象。对于某一特定文档，除了考虑文档本身词与词的共现关系，还利用文档集中与其相似的k个文档的词语相关信息来构建词项图，使得图中有更丰富的语义信息。这种方法一定程度上缓解了词汇差异，但由于算法是在文档层次上引入外部信息，这样往往会引入噪音。给结果带来一定的偏差。
　　3 关键词抽取策略
　　关键词抽取算法流程
　　1）文档预处理
　　・利用分词工具进行分档分词处理得到文档的词序列集合
　　・利用维基百科词条对词序列作词语合并处理
　　2）基于机器翻译的关键词抽取算法（MTKE）
　　・准备翻译对集合
　　对于任意一篇文档，构建“文档-关键词”翻译对
　　・根据翻译对训练翻译模型
　　对于给定的翻译对，利用词对齐模型，训练词到词之间的翻译模型
　　・文档关键词抽取
　　对于给定的文档，根据训练好的翻译对模型进行关键词抽取
　　3.1文档预处理
　　对于任意一篇文档，我们首先需要对其进行分词处理得到一组词序列来代表文档。在本文中，我们使用基于层次隐马尔科夫模型ICTCLAS分词系统，功能包括中文分词、词性标注、命名体识别等。
　　对于某些特定的词语，分词工具并不能完整地得到，因此我们利用维基百科的词条库对分词后的词序列做进一步合并处理。
　　3.2基于机器翻译的关键词抽取
　　我们利用统计机器翻译当中的词对齐模型（WAM）进行关键词抽取，WAM模型基于翻译对数据集学习两种语言词语之间的翻译概率。利用这个概率模型我们就能从某种程度上消除词汇差异，选出合适的关键词。
　　3.2.1 准备翻译对训练数据
　　词对齐模型需要从大量翻译对数据中学习词语之间的翻译概率，为了得到翻译对训练数据，最直接的方法就是利用“文档-关键词”来组成翻译对。由于词对齐模型需要每个翻译对的长度基本一致，而“文档-关键词”对的长度相差很大，如果单纯地将其交给词对齐模型训练会造成很差的效果。为了解决长度不匹配的问题，本文采用基于分割的方法对文档进行处理。
　　在分割方法中，我们将每篇文档d分割成与文档关键词长度相似的句子，对于每一个句子，我们使用向量空间模型来表示它，从而可以计算句子与关键词之间的语义相似度。在相似度度量当中，我们采用余弦相似度来计算：
　　当相似度大于某个阈值的时候，我们就将这个句子保存，作为翻译对数据。
　　3.2.2 训练翻译模型
　　IBM Model-1是广泛使用的词对齐模型，该模型可以从大量翻译对数据中学习翻译概率而不需要任何语言学的知识，本文采用他来训练文档和关键词两者词语之间的翻译概率。　　对于任何一个翻译对，任何两个语言的词语是通过隐含变量a来描述，该变量代表了文档词到关键词之间的映射关系。即对于任何一个翻译对，这种映射关系可以表示为：
　　IBM Model-1使用最大期望算法（EM）进行训练，求得最大可能的映射关系。利用IBM Model-1可以得到两种语言词语之间的翻译概率，即和。综合利用上述两种翻译模型，我们引入调和因子融合两种模型，定义如下：
　　其中代表模型关键词到文档的概率，代表文档到关键词的概率。
　　3.2.3 关键词抽取
　　对于任意一篇给定的文档d，我们通过计算候选关键词集合中每一个词的得分来进行排序，从而选出适当的关键词。
　　对于文档d中的任意一个候选的关键词，它的得分按下式计算：
　　其中为文档d中词的权重，在计算的过程中，我们使用归一化的TF-IDF的分值，而是由WAM训练出来的翻译概率。
　　4 实验结果分析
　　本文的实验数据来源于新华社的中文新闻，数据集总共包含了26，669篇新闻，包括政治、经济、文化、人物、军事等多方面的题材内容。所有新闻均有人工标注的关键词，同时也提供了文章的标题时间等信息。
　　在进行翻译模型训练时，本文采用GIZA++来训练IBM Model-1。GIZA++是统计机器翻译中广泛使用的词对齐工具，该工具实现了IBM Model1～5以及HMM词对齐模型。
　　为了对实验结果进行评价，我们将人工标注的关键词作为标准答案集，如果我们选出的关键词完全匹配标准的正确关键词，我们就认为这是一个正确的关键词。本文使用准确率P召回率R及F1值作为实验结果的
　　评价。
　　其中，
　　本文的实验结果是基于5等分交叉验证得到的。在进行机器翻译模型的关键词抽取实验时，我们采用“文档-关键词”作为训练的翻译对。同时，我们设置翻译模型的调和因子为，文档相似度阈值，在这些参数上，我们的模型表现出的效果最好。同时我们选择关键词个数为4时的结果作为各个模型结果进行对比，因为我们的模型在关键词个数为4时F1值最高。根据表1的文档特征统计结果可以看出，每篇文档的关键词个数为4.3，这从某种程度上解释了关键词个数为4时算法表现最优。
　　在实验的过程中，我们采用经典的TFIDF、TextRank及LDA作为实验的对比模型。我们将基于机器翻译模型的关键词抽取算法定义为MTKE。同时将未做合词处理的模型定义为MTKE-1，将进行wiki词库合词处理后的模型定义为MTKE-2。
　　结果表明，将机器翻译的思想应用到关键词抽取当中是非常有效的。同时使用wiki词条合并预处理后的方法（MTKE-2）效果要优于未做处理的方法（MTKE-1）。
　　传统的关键词抽取算法TFIDF和TextRank仅仅考虑文档的统计特性，不能解决文档与关键词之间的词汇差异现象，成为算法的瓶颈。而LDA模型从话题的层次将外部信息引入单篇文档的关键词抽取，这样虽然从某种程度处理了词汇差异的现象，但是引入了很大的噪音，效果并不理想。而对于MTKE算法，它是在词语的层次解决文档和关键词之间的词汇差异现象，因此能够在关键词抽取当中表现得更好。
　　为了看出机器翻译模型当中参数对实验结果的影响，我们对翻译对构造过程中相似度阈值的影响做了对比实验。
　　从结果可以看出，相似度阈值在0～0.15之间时实验结果差异很小，此时的翻译对数量为258，978。随着相似度阈值逐渐增大，翻译对的数量开始减小，当时，翻译对数量减少为15，188，而此时的F1值为0.342，由此可以看出翻译对数量减少了94.2%时，F1值下降了17.8%，而此时的F1值也超过了现有的算法。这就说明，即使训练的数据集较小，采用“文档-关键词”做翻译对进行词对齐模型的训练也是非常有用的，对于关键词抽取有很大的应用价值。
　　5 结论
　　本文给出了一种基于机器翻译模型的关键词抽取算法框架，将文档中抽取关键词的任务抽象成一个翻译的过程。通过从数据集中抽取“文档-关键词”翻译对，使用IBM Model-1进行训练，最后得到我们的翻译模型，实验表明，这种方法得到的翻译模型对关键词抽取有很好的效果。
　　通过引入维基百科的词条库，采用基于最大匹配的思想对词语进行合词处理，使得合并后的词语更加具有代表性。我们将此方法与机器翻译模型结合起来，得到的模型MTKE-2效果比未做合词处理的方法MTKE-1有进一步提高。
转载注明来源:https://www.xzbu.com/8/view-11805617.htm

查看更多→

新闻文档关键词抽取技术研究

相关文章