您好, 访客   登录/注册

数据挖掘技术在图书馆中的应用

来源:用户上传      作者: 刘晓忠

  摘要: 随着数据库技术的迅速发展以及数据库管理系统在图书馆的广泛应用,图书馆积累大量的读者对资源的历史访问数据。探讨利用数据挖掘技术为读者提供更好的服务。
  关键词: 数据挖掘;高校图书馆;应用
  随着信息技术的发展,图书馆对读者的借阅信息提出了更高的要求。读者已经不满足于简单的借阅,他们希望能有一些智能化的服务,就比如像淘宝购物一样,买东西的时候有很多的推荐信息来指导购物。数据挖掘就是顺应这种需要应运而生发展起来的数据处理技术。
  1 数据挖掘技术
  所谓数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
  数据挖掘通常分为描述型数据挖掘和预测型数据挖掘。描述型数据挖掘一般是对数据中存在的规则做出描述,通常通过对现有数据的概括、精炼和抽象反映同类事物共同性质。预测型数据挖掘通过对现有数据的分析、处理,得到某种元组中某些属性的内容,或是预测出某些信息资源未来形成、使用的规律等。
  常用的数据挖掘方法有:① 关联分析。主要挖掘隐藏在数据间的相互关系,包括时序关联和因果关联等。② 序列分析。序列模式分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。它是基于分析数据间的前后关系和因果关系。它与关联分析相似,但是侧重于分析数据间的前后(因果)关系。③ 分类分析。通过分析具有类别的样本的特点,以便能够分类识别未知样本的归属或类别。④ 聚类分析。把数据分到不同的组中,搜索数据对象之间所存在的有价值联系。
  2 高校图书馆图书管理数据挖掘
  作为高校的重要信息服务机构,图书馆应根据学校专业设置和学科建设规划,通过已经购买的各种专业数据库、网络下载的免费电子资源、图书馆图书管理系统的各种统计数据以及对图书馆馆藏资源进行数字化加工的方式,进行资源的建设和再利用。主要使用数据挖掘技术中的关联分析、聚类、分类和预测,对图书馆的读者特征、读者类型、读者属性、读者满意度,信息需求等进行分析。
  2.1 数据准备。图书馆存在大量的读者对图书馆资源的历史访问数据和数据的统计,这些数据之间是独立的。将数据挖掘技术应用在图书馆流通系统中,运用数据的关联、分类、聚类挖掘技术,可以将这些数据更好地结合起来,有效地提高资源利用率,同时为图书馆的资源建设提供数据基础。在高校图书馆中,每天都会产生大量的图书流动记录数据,而通过对图书管理系统记录的图书借阅信息进行一般性分析,可以发现包括读者类型、文献类型、读者证号、借阅期限、续借等方面的信息。虽然这些信息之间是独立的,但仍然可以了解到这些显性信息之间的关系,可以满足读者一般的信息服务需求和完成基本的业务数据统计与分析。
  2.2 数据筛选。对原始数据进行加工处理,去除不必要的“噪音”,保证数据的完整性和准确性。要挖掘出受读者欢迎的图书特征,其主要数据是根据流通系统中的读者借阅记录和藏书数据库中的数目特征获得的。图书管理系统中存在的统计数据主要有:读者姓名、借书证号、读者类型、所学专业、借书日期、还书日期、书名、主题、出版社、ISBN号、出版日期、价格、页数、馆藏地、索书号、条码等字段信息。可以通过流通日志进行设定相应的条件将某一时间段内的借阅记录导出,经过人工筛选和删除,去除相关性差的一些字段信息,挖掘出受读者欢迎的资源。
  2.3 建立新型数据库。按照所筛检后的字段建立一个新型数据库,将流通系统和网络中相应的数据导入新数据库中,对数据质量进行检查和规范,并设定好数据记录的有效时间。数据库中的数据有效时间可定为一年就大致可以反映出读者借阅图书的规律。如果为了保证数据的可靠性和稳定性,可以将数据的有效时间适当延长来进行统计分析。
  2.4 数据统计分析。流通系统的各种统计数据的挖掘主要使用统计分析方法,它是通过对总体中的样本数据进行分析,得出描述和推断该总体信息和知识的方法。这些信息和知识能够描述揭示出总体中的内部规律。运用统计分析的方法,可以将流通系统中读者身份类型与借阅书籍、书籍类型进行相关分析,从而推断出不同的学科背景下读者的借阅规律;分析出为什么有些书籍借阅率高,有些书籍借阅率低,它们和读者的身份,书的内容、出版时间、当前的研究课题、教授的课程和学习的课程之间存在内在联系以及借阅规律产生偏差的原因等等然后对馆藏资源结构进行评估和调整,以及管理内容的调整和经费分配的调整。
  3 数据挖掘技术在图书馆中的应用
  3.1 个性化服务。数字图书馆的个性服务在整个数字图书馆系统中是很关键的部分应由被动服务转向主动,由单纯的信息呈现转向信息生成。主要表现为两个层次:第一层按用户要求进行信息定制。第二层则是数字图书馆挖掘用户兴趣模式,主动提供服务,使数字图书馆成为一个智能型、主动性的信息提供商。
  3.2 提高信息获取速度。数字图书馆中的信息量是庞大的,在堆积如山的数据中包含着许多待提取的有用知识。用户关心自己的需要是不是能够被满足胜于关心数据图书馆中总的信息量。要想为用户提供更快、更有效的服务,就必须有一套很好的搜索机制。数据挖掘技术为数字化图书馆提供了先进的信息检索工具,在数字图书馆的检索中采用数据挖掘的相关理论和方法,设计的系统将有更大的智能性。


转载注明来源:https://www.xzbu.com/8/view-1630085.htm