基于云计算的大数据信息检索技术
作者 : 未知

  摘 要 伴随着云端数据日益膨胀,想要从大量的数据当中快速寻找想要的�稻菔欠浅@�难的,这也成为了当前亟待解决的重要课题。目前,数据检索技术已经阻碍了云计算进一步的发展。本文系统阐述了云计算的概念以及大数据存储特征,介绍了Web信息收集与检索,并从检索请求分析以及匹配检索请求两个方面研究了检索的过程。
  【关键词】云计算 大数据 检索技术
  在当前信息技术快速发展的时期,云计算已经成为了政界、学术界、互联网企业等关注的焦点。云计算主要是利用互联网平台,通过大量的计算与存储资源将互联网有机连接在一起,从而形成虚拟IT资源池,根据用户需求提供相应的服务。在IT产业界当中,云计算被看做是网络时代又出现的一个新的产业增长点,具备较高的市场发展前景。云计算理念与当前低碳经济以及绿色计算趋势相吻合,并且具有发展为未来网络神经系统的潜力。云计算已经在信息领域引领了空前的工业革命,带动了传统电信行业、互联网行业乃至社会产业的重要变革。
  1 云计算下大数据信息检索技术概述
  1.1 云计算定义
  云计算有着很多种不同的定义,其中被普遍接受的一种是由NIST在2011年提出的,它认为云计算是一类利用网络,利用便捷方式从包括服务器、网络、应用、存储以及服务在内的共享计算机资源池中获得服务的业务形式,云计算业务资源在简洁的交互以及管理过程中得以快速的释放与部署。
  1.2 大数据存储特征
  云计算的产生催生了大数据。大数据主要是指大量的结构化以及半结构化数据。其具备面积大、多样化、价值密度低、快速处理能力等四方面特征。这些特征表明了针对大数据所采取的检索方式不能等同于传统方式。
  假如使用传统关系数据库实现数据的保存,那么不仅耗费时间同时也耗费金钱,实现起来比较困难。超过一半以上的大数据属于非结构化数据,他们是通过文件的方式进行储存的。现在,大数据主要存储在集群文件系统当中。该系统的核心在于:一个大数据文件被分成了很多部分。块数据主要储存在块服务器当中,每一个块都会存在相应的元数据,而元数据则保存在主服务器当中。元数据的保存类型包括了文件与块命名空间、每个块数据备份位置、块的映射文件。其中,命名空间的元数据主要被用作维护文件系统命名空间,在命名空间当中就能够查到相应的文件以及目录路径,该路径会对应想要查询的内容。此外,还有一种元数据主要记录文件位置,通过查询相应的信息,就能够获取数据位置偏移量。因为某些文本信息因为是非直接描述的,所以经常出现误用的情况,这也是很多企业比如谷歌非常重视元数据准确描述的原因所在。
  2 Web信息收集和检索
  信息价值密度与总量呈现出反比的关系,在数以亿计的信息当中,可以满足用户需要的通常只有区区几页。云计算本身的计算能力较强,能够充分使用云数据获取最终的处理结果。如何保证云计算能够从大量的数据当中获得客户想要的信息是现在急切需要解决的重要问题。从信息检索层面看,百度以及谷歌等公司依然处在领先地位。
  信息检索过程中会对各个服务器进行分析,并排序数据信息,相似度相对较高的服务器通常会在前列,与此同时,对于服务器当中所存储的数据展开全面的分布式检索,最终检索结果会保存在Index Repository当中,而网页通常保存在搜索引擎当中,用户一旦提出了搜索请求,通常都会在Index Repository当中完成信息检索工作的,并按照PageRank方法对倒序索引展开计算工作,这些内容最终都被放在了索引存储器中。与此同时,页面标题以及所涉及的数据信息会被放在相对应的索引内容下,方便使用广度优先的方法对其展开搜索,相应的,网页的内容则会被置于另一个索引当中,方便使用深度优先的方法展开搜索工作。
  尽管用户所查的相关信息都会在搜索引擎缓存区当中存放,但是用户在查询相关信息的时候依然会出现延迟的情况,为了提升搜索的效率,需要构建一个存放关键词的词库,便于使用者展开搜索工作。
  3 检索过程
  数据的检索首先由用户提出查询请求,并且把关键词提交给检索代理,检索代理将检索的关键词传送到索引存储器当中,将检索的结果按照相关度重新进行排序,然后传送到用户的检索界面,并呈现到用户的面前,从而显著提升检索速度以及能力。
  3.1 检索请求分析
  检索用户在搜索引擎上输入关键字,并且提交检索请求,慢慢的发现与之相匹配的网页内容,搜索引擎会详细分析这次搜索请求,并且对搜索请求展开细致的分析,并作出分词处理。中文分词通常采用基于字符串匹配、理解分词方法以及统计分词方法。
  3.2 匹配检索请求
  当用户提出请求以后,搜索引擎会展开系统分析,匹配出与之符合的URL,其数量较大,只有采用搜索引擎遵循YRL匹配程度对其排序,才可以有序呈现出最终的结果。系统对文档内容全面分析以后所获得的信息、网页当中的PageRank值,最终都会和链接文件当中与网页内容相关的信息联系在一起,此时其检索结果也会相应的确定,从而可以客观的在网页当中显示出来,能够最大限度确保所有结果与用户希望查询的结果一致。
  4 检索技术发展趋势
  利用云计算实现大数据检索技术,不仅能够保护用户的隐私,同时还因为技术具有计算量小、快捷方便,所以其本身有着极高的应用前景。与此同时,这项技术巧妙的使用了信息认证码,所以即便是存在不同文件重叠的情况,只要选择出了合适的关键句组合以及关键词,那么计算出来的MAC值也会存在差异性,这就更加表明该技术具有较高的精确度。可是这项技术也存在一些缺陷,假如在重复率相对较高的文件当中选择的关键词以及关键字相同,那么就无法保证最终检测出的数据信息是用户想要的。所以在确保技术高效、简洁的同时,还需要努力提升检索技术的精确度,这是未来亟待解决的重要课题。
  参考文献
  [1]刘月.探究云计算下大数据的信息检索技术应用[J].数字技术与应用,2015(07):95-95.
  [2]黄晓清.基于云计算分析大数据信息检索技术[J].科学中国人,2016(11).
  [3]吴谋硕.基于云计算的Web信息收集与检索过程分析[J].信息与电脑(理论版),2016(15):34-35.
  作者简介
  万冬娥(1971-),女,山东省枣庄市人。现为枣庄职业学院副教授。研究方向为计算机、云计算。
  作者单位
  枣庄职业学院 山东省枣庄市 277800