一种基于学习的元搜索引擎查询项处理方法
来源:用户上传
作者: 季秀环
摘 要:本文提出了根据用户提交的检索主题对查询关键词进行扩展,从而增强查询结果与用户信息需求的相关性的一种处理方法。
关键词:元搜索引擎 扩展词 查询项扩展
中图分类号: 文献标识码:A文章编号:1007-9416(2010)05-0000-00
目前存在的元搜索引擎无法了解用户的真实意图,所以往往返回很多与用户不相关的查询结果,使得查准率很低。例如:用户输入查询项“人工智能”,系统无法知道用户要检索的信息是关于人工智能的会议还是有关人工智能的学术论文,满足用户的信息有可能被淹没在数据的海洋中。这里给出的基于学习的查询项处理方法,可以有效的解决这个问题。
1 相关技术介绍
由于各个成员搜索引擎所支持的查询格式各不相同,在确定了潜在有用的成员搜索引擎之后,要把查询请求转化为对应目标搜索引擎的查询参数格式,将处理过的查询请求参数发送到选定的成员搜索引擎进行信息的搜索。
比如,在baidu搜索引擎中,空格表示“与”关系,在Alx搜索引擎中,“and”表示与关系,在Exite搜索引擎中,“&”表示与关系。这样,当用户想查询同时包括关键词k1、k2、k3的网页时,以这种元搜索引擎要求的参数格式把这三个关键词提交给元搜索引擎,如果元搜索引擎同时调用baidu、Alx和Exite这三个成员搜索引擎,元搜索引擎就把“k1 k2 k3”做为查询项提交给baidu,把“k1 and k2 and k3”做为查询项提交给Alx,把“k1&k2&k3”提交给Exite。
由于查询关键字有时并不能代表用户的信息需求,本文提出的元搜索引擎提供主题供用户选择。用户通过查询接口提交查询请求时,除了要提交查询关键字,还要选择检索信息的主题。系统根据关键词以及主题,来进行查询项的处理。
为了增强查询结果与用户信息需求的相关性,这里采用查询项扩展技术,根据用户提交的检索主题对查询关键词进行扩展。
接下来我们对扩展词描述文件的建立、查询项扩展、查询项格式转换分别进行研究和讨论。
2 扩展词描述文件的建立
在元搜索引擎的服务器端,为每个主题建立对应的扩展词描述文件,描述文件里存放每个主题对应的扩展关键词。扩展词描述文件创建后,系统将通过学习来更新描述文件。学习过程是系统对用户所访问的页面进行分析,自动提取出这些页面的公共关键词,将其用作查询项的扩展。起初扩展词描述文件为空,当用户提交检索主题和查询关键词后,服务器端并不扩展用户的查询项,而是直接提交给各成员搜索引擎来检索网页。随着用户的使用,系统会分析用户点击打开的相关检索结果,提取这些结果网页的共有词汇,并把这些词汇存放在描述文件中做为扩展关键词。
例如:元搜索引擎的主题分为“新闻”、“论文”,在元搜索引擎的服务器端为“新闻”和“论文”各建立一个描述文件。起初这两个描述文件都为空。当用户一提交检索主题“论文”和查询关键词“ontology”后,系统直接把“ontology”这个关键词提交给成员搜索引擎;当用户二提交检索主题“论文”和查询关键词“web service”后,系统直接把“web service”提交给成员搜索引擎。用户一在大量的返回网页中会点击其中的几个网页w1、w2、w3,而这几个网页很可能符合“论文”这个主题而不是与ontology有关的新闻网页;用户二在返回网页中会点击其中的几个网页w4、w5,这几个网页很可能是符合“论文”这个主题的网页而不是与“web service”有关的新闻网页。当用户提交了检索主题“论文”和查询关键词后,会返回很多网页,系统认为用户点击打开的网页最可能是符合“论文”这个主题的,因此系统会分析这些网页,从中提取出共有的词汇,存放到“论文”主题对应的描述文件中,做为扩展关键词。
随着用户使用时间的增长,描述文件中用于查询项扩展的关键词个数不断更新和增长,为了避免扩展词描述文件中扩展关键词过多,可以设定扩展词描述文件中的关键词容量,即超过容量后按一定策略进行淘汰。
3 查询项扩展
随着元搜索引擎的使用,每个信息主题对应的描述文件逐渐得到完善。当用户再提交检索主题和查询关键词给元搜索引擎,系统会自动的把查询项扩展为“查询关键词+扩展关键词”,再提交给各成员搜索引擎。这里,“查询关键词”指用户提交给元搜索引擎的关键词,“扩展关键词”指描述文件中的对应每个主题的扩展关键词。
比如:在元搜索引擎使用一段时间后,“论文”对应的描述文件中已经有了“keywords”和“abstract”两个扩展关键词。当用户提交检索主题“论文”和查询关键词“ontology”后,系统会把“ontology”扩展为“ontology+keywords+abstract”,然后把这个由三个关键词组成的查询项交给成员搜索引擎。这样,各成员搜索引擎用“ontology+keywords+abstract”做为查询项检索到的网页更可能符合论文这个问题。
随着元搜索引擎的使用,系统会自动通过学习来扩大描述文件。比如,在使用过一段时间后,“论文”这个主题对应的描述文件中可能会增加了“references”一词。这样,在以后检索ontology相关论文时,查询项会扩展为“ontology+keywords+abstract+references”。
这里,系统分析网页提取到的共有关键词不一定是出现在每个用户点击网页中的词,当某个词以一个较大的频率出现时,我们认为它可以做为扩展关键词存到描述文件中。比如一个词,在1000个相关网页中出现了600次,我们认为它应该做为扩展关键词。
4 查询项的格式转换
由于各个成员搜索引擎所支持的查询格式各不相同,在确定了潜在有用的成员搜索引擎之后,要把查询请求转化为对应目标搜索引擎的查询参数格式,将处理过的查询请求参数发送到选定的成员搜索引擎进行信息的搜索。
用户提交给元搜索引擎的查询项运用以上三个步骤处理后,会使元搜索引擎的查准率更高。比如,当用户一提交检索主题“论文”和查询关键词“ontology”后,系统会把“ontologykeywordsabstractreferences”做为关键词提交给baidu搜索引擎,把“ontology and keywords and abstract and references”提交给Alx搜索引擎,把“ontology &keywords & abstract & references”提交给Exite搜索引擎。
转载注明来源:https://www.xzbu.com/8/view-1064441.htm