您好, 访客   登录/注册

网络信息检索系统的设计与技术分析

来源:用户上传      作者: 王菊

  【摘 要】当前,随着互联网的普及和网上信息的爆炸式增长,信息检索系统及其核心技术搜检索擎的性能和效率问题已成为人们研究和关注的焦点。影响一个搜检索擎系统的性能有很多因素,但最主要的是信息检索模型,通过对信息检索模型研究的主要内容和构建策略进行了描述,就相关的问题进行了探讨,总结了信息检索模型的研究。
  【关键词】信息检索模型;相关性;查询;搜检索擎
  
  随着网络应用的不断普及,网络已经成为人们获取信息的重要场所。在对新的检索工具和检索技术进行探索和研究的过程中,应克服当下网络信息检索给我们带来的困难,加强对不同需求进行信息搜集和发送的智能化服务功能。
  一、网络环境下信息检索的含义及特点
  智能化信息检索是在信息检索的基础上提出来的,它是以用户为中心的信息检索技术,为不同用户提供不同的服务,并满足同一用户在不同时期的需求,通过收集和分析用户信息来学习用户的兴趣和行为,并综合利用这些用户信息,提高信息检索系统的性能,满足用户的个体信息需求。在具体实现过程中主要是通过观察和分析用户的搜索行为,从中识别出用户对信息需求的偏好,并且能够根据用户对搜索结果的评价,自觉地调整搜索策略,使得对于不同的检索请求,不同用户都能够得到最贴近自己需要的信息服务。
  数据量巨大。在网络环境下,数据量大的惊人。大数据量会导致一些难以预料的软件异常,流量也会难以控制,对各个环节的策略和算法选择将会更加复杂。
  多用户服务。多用户模式的信息检索服务必须注重快速反应,注重对并发访问的支持,对公共数据的共享,对临时工作数据的清理等。如果要针对不同用户开展不同服务,就要获取并管理不同用户的个性化需求,使大量的信息通过不同的渠道,主动送到用户的手上。
  用户层次复杂。网络环境下信息检索服务的用户中,大多数都不是专业用户,他们的层次区别较难,拥有不同的操作技能和操作知识,面对这些非专业的用户,将更加需要人性化的引导式信息服务。
  二、网络信息检索的原理
  随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络,基于Internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性。
  网络信息检索工具是网络信息检索技术的实物体现。目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式:
  1.布尔逻辑模型
  这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。
  2.模糊逻辑模型
  它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。
  3.概率模型
  它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。
  三、网络信息检索系统主要功能模块
  (一)Oracle数据集成工具(ODI)
  ODI(Oracle Data Integrator)是Oracle公司采用ELT理念进行数据抽取、加载、转换的数据集成中间件工具,其最大特点是提出了知识模块的概念。ODI将一些场景(如文件加载到数据库,从MySQL数据库抓取数据到Oracle数据库等)的详细实现步骤使用Jvthon脚本语言结合数据库SQL语句录制成详细的步骤记录下来,形成知识模块,ODI中共有超过100种主流数据库引擎和应用系统的知识模块,基本上包含了普通应用所涉及的所有场景,因此ODI可以实现对校园网内多种异构数据库的支持。在一个数据集成任务中,ODI通过声明设计运用接口和关系图等概念声明数据集成规则,使集成的逻辑和技术层面分离,底层的技术方面由知识模块描述和定义,系统只需要把重点放在集成任务规则的制定上面,再将制定好的集成规则封装为一个服务模型。发布和订阅该模型便可实现类似于数据增量定时更新的功能,系统以全局数据库为核心通过ODI工具对校园网内异构数据库数据进行抽取、转换、清洗和加载,集成后的数据质量得到了提高,对异构数据源的处理也得到了加强。在对数据处理的过程中提取了信息的标题、作者、正文、发布时间、URL地址等字段,可定时对各异构数据库数据进行增量更新操作,从而替代利用网络爬虫获取信息数据。Oracle全局数据库可以集成校园网内大部分信息发布系统的数据并提供给信息检索和检索模块。
  (二)Lucene与Nutch
  Lucelle不是一个完整的搜检索擎,而是一个用于实现全文检索的软件库,采用Java语言开发,提供了检索内核,其设计原理是检索检索,任何信息资源只要被转换成文本格式都可以被检索。Nutch是Lucene得到广泛应用和认可后出现的搜检索擎系统,内部使用了Lucene的检索检索技术,并进一步封装了网络爬虫和分布式处理等模块从而成为一个完整的应用系统。本系统以Nutch为基础,既应用了Nuteh系统的完整性,减少了不必要的开发,又可灵活使用Lucene接口,丰富系统功能。
  对于非结构化文本信息,系统对Office文档采用了POI插件方式,用PDFBox插件来实现对PDF文档的读取,并将上述插件集成到Nutch当中。信息检索的基础是文本分析,而文本分析在很大程度上依赖于分词模块对语言的处理。Nutch自带的CJK分词模块对中文分词的效率和准确度上不能满足实际需要。为此。在对比了JE分词、Paoding分词和ICTCLAS分词等多款中文分词模块后,Paoding分词由于其开源性和良好的分词效果被本系统采用,并通过Nuteh的插件机制集成到系统当中。
  (三)信息检索与检索
  为满足用户全网检索和分类分部门检索信息的需要,并提高检索效率,信息检索模块首先对每个数据源建立检索文件提供给分类检索用户,然后通过优化检索提供给全网检索用户。优化检索就是将多个检索文件合并成单个文件的过程,目的是为了减少检索文件的数量,并且能在搜索时减少读取检索文件的时间。Nutch中的IndexWrite类提供了optimize方法实现该优化操作。利用Nutch中的MultiSearcher类可实现对优化后检索的全网检索功能,检索结果会以一种指定的顺序合并起来。
  针对校园网用户信息检索的特点。综合考虑信息相关度、时效性和访问量等因素后,系统采用了自定义的排序机制,文档文本相关度作为信息检索的主要排序依据,信息发布时间和访问次数作为重要的排序因子,系统通过Lucene的激励因子boost值来改变文档得分,从而调整文档的出现顺序。系统为校园网用户提供了通用检索和高级检索功能,通用检索在用户输入检索信息的关键字后可检索出所需信息:高级检索功能为用户提供了更为详细的检索条件,用户可根据需要对信息进行更加精细的检索。系统管理功能除对用户权限进行管理外还对信息检索结果进行屏蔽和进一步处理。

  四、网络信息检索的主体技术和相关技术
  (一)信息检索服务的主体技术
  网络信息检索通常采用搜索引擎技术,该技术是为了解决“信息迷航”问题而提出的。它通过相应的算法在互联网上搜索相关信息,并对信息进行组织和处理,从而为用户提供信息导航。
  现阶段,网络搜索引擎有很多,用户比较常用的有Google、有道、百度等等,这些搜索引擎能进行网络信息检索、信息过滤、个性化信息服务定制等比较有特色的服务,但是并没有实现真正意义上的智能化检索。在实际使用过程中,用户想要的不仅仅是有用的信息,他们更希望做信息消费的主人,使信息的搜索可以在一个相对主动的环境中进行。
  (二)智能信息索引的相关技术
  1.智能代理技术
  智能代理又可以称之为智能体,它是在用户没有明确具体要求的情况下,根据用户需要,代替用户进行各种复杂的工作,如信息检索、筛选及整理,并能推测用户的意图,自动制定、调整和执行工作计划。智能代理首先要建立个性化的数据库,在数据库中建立用户基本信息表(包括用户编号、用户名、姓名、年龄、性别等字段)、用户职业信息表(包括职业编号、职业类型、等级、职称等字段)和用户兴趣信息表(包括兴趣编号、兴趣类别、程度等字段),用来详细描述用户的个人情况,其中第一个字段可以设置成关键字。然后建立用户检索策略表(包括策略编号、策略控制、检索词控制、检索时间控制、检索范围控制等字段)和用户检索评价表(包括检索编号、检索时间、检索词、检索结果数量、查全率、查准率等字段),同样的,第一个字段设置成关键字。检索策略表主要是给用户模型的检索定义一个比较完整的检索策略,检索评价表主要是对用户检索的满意度作一个简单的评价描述。
  有了用户个性化数据库,一方面,在服务器端吸收智能代理技术的思想,引入个性化服务的理念,引入用户反馈机制来完善检索机制、提高检索命中率,同时也可提供面向个人的特殊检索服务。另一方面,信息检索用到智能代理主要集成在客户端,配合用户兴趣完成搜索,它会对用户信息需求、偏好进行区别、归纳、总结,分析用户的兴趣爱好,并借助学习的规则,自动、独立地代理用户查找用户感兴趣的信息。
  2.用户兴趣挖掘技术
  实现信息检索服务最重要的就是对用户的喜好和习惯进行分析,日前,通常使用两种方法:其一是通过用户主动提供自己的兴趣来得到用户的个性化向量;其二是在用户没有明确参与的情况下,系统通过观察用户行为来得到用户的兴趣,从而得到用户的个性化向量。使用第一种方法,可以选择下面两种方式:一是用户将自己感兴趣的信息类或在线文档分类后提供给系统,系统从这些文档或信息类中发现用户的兴趣;二是用户提供自己的研究方向和其它阅读爱好等信息,系统从这些信息中发现用户的兴趣。但是,由于用户的兴趣并不是一成不变的,而用户一般不可能提供所有的兴趣以及感兴趣的程度,因此还需要使用第一种方式进行补充。使用第二种方法是根据用户对推送页面的评价信息来更新用户的个性化向量。
  随着信息技术的进一步发展,信息检索技术必将更加完善,它将在人类与信息之间建起一座方便的桥梁。我们虽取得一些成绩,但是道路还很漫长,真正实现信息搜索的智能化服务,还有待代理技术的智能性、主动性、自主性等得到进一步的提高。
  
  参考文献:
  [1]赵刚.网络环境下信息检索研究[J].内蒙古科技与经济,2010,12.
  [2]黄少林,王华,张玉红,蒋一峰.基于Lucene的检索系统的设计与实现[J].现代情报,2009,29.
  [3]陈维,阮海红.网络环境下的信息检索与数据挖掘技术[J].现代情报,2009,5.
  [4]邱哲,符滔滔,王雪松.开发自己的搜检索擎Lucellc+Heritrix[M].北京:人民邮电出版社,2010.


转载注明来源:https://www.xzbu.com/8/view-1605053.htm