数字图书馆用户的多语言信息需求调研
来源:用户上传
作者:
[摘要]数字图书馆中有大量各种语言的信息资源,是多语言信息获取的重要应用之地,但用户对其真正的获取需求却并未被明确阐述。通过调查问卷的方式,对数字图书馆用户进行调研,了解其在用户行为、多语言信息获取需求动机、多语言信息资源、多语言信息服务、多语言信息检索和多语言系统用户界面六大方面的详细需求、
(关键词]多语言信息获取 数字图书馆用 户调查 信息需求
[分类号]G250.76
1 引言
多语言信息获取(Multilingual informaiton Access,MLIA)即在多语言环境下研究信息的贮存、描述和检索,它对信息在全人类和全球范围内的进一步整合至关重要。多语言信息获取的一个重要应用领域是数字图书馆。数字图书馆拥有大量数字化资源,在媒体丰富的社会生活中扮演了重要角色。多媒体、多语言和多元文化是数字图书馆最主要的三个特征。作为信息资源与信息技术的融合,数字图书馆中涵盖了多项与多语言信息获取相关的应用领域。如多语言信息资源管理、多语言数字图书馆门户、多语言信息检索、多语言元数据描述、多语言问答系统和多语言文本挖掘等等。越来越多的数字图书馆意识到获取多语言信息资源的重要性,例如,欧盟委员会发起了"i2010数字图书馆倡议”,提出了有关数字图书馆中多语言信息获取的议案,目的是方便用户对欧洲国家图书馆里的信息资源进行多种语言获取。
然而目前除极少数网站,如谷歌翻译等外,多语言信息获取技术并未被广泛应用。出现这种情形在一定程度上是因为市场缺乏需求,但更主要是因为多语言信息获取的特殊要求并未真正被明确阐述和评估。例如,在多语言信息获取系统中,终端用户对检索到的信息的翻译和概括有着比普通检索系统更高的要求,而这些要求并未被系统开发者所认设。
因此,为了实现未来数字图书馆的多语言信息获取功能,我们应该关注数字图书馆用户的真实需求。本文将以问卷调研的方式进行调查研究,分析调查结果,以期了解用户对数字图书馆提供多语言信息服务的期望。
2 多语言信息获取在数字图书馆中的应用
多语言信息获取既包括多语言信息处理技术的研究,如跨语言信息检索、机器翻译、多语言问答等,也包括对用户的研究,如用户行为、用户需求、用户评价等。数字图书馆中存在大量的多种语言数字资源,因此是多语言信息获取的重要应用阵地。目前,国内外很多研究者也认识到多语言信息获取在数字图书馆中的重要性,开展了很多理论与实践研究,主要集中在以下三个方面:
2.1 提出数字图书馆和多语言信息获取的集成框架
Oard指出,用一种语言去检索大量多语言馆藏文献的方法提高了数字图书馆用户搜索信息的能力,同时叙词表能够帮助解决使用不同语言中的词汇对受控词汇进行检索的挑战。Maybury与Griffith L描述了一种集成的、能鉴别大量多语言文献的信息分析环境。Chen以台湾故宫数字博物馆为例,对数字图书馆中的多语言信息获取进行了综述。Liu等提出了Are――一种与开放信息存取相互兼容的联合数字图书馆,并探讨了Arc如何与现有的跨语言检索组件相集成。Pavani研究了Maxwell数字图书馆系统的一些特定功能,指出多语言数字图书馆应具备的基本功能与组成部分。
2.2 开发构建多语言数字图书馆的技术
Bian与Chen探讨了使用跨语言信息检索技术来获取互联网上的多语言文献。Wang等调查了利用网络作为语料源翻译未知检索词以解决数字图书馆跨语言信息检索的可行性。Richardson与Fox提出了使用概念图作为数字图书馆大量文献的跨语言资源发现工具的方法。
2.3 实现多语言数字图书馆的应用项目
马里兰大学的一个研究小组设计了国际儿童数字图书馆,该图书馆选择和整理来自不同国家的图书,并将它们以不同语言同时呈现出来。伯克利公共数字图书馆提供了8种语言的信息资源,并配备了多语言目录检索以及多语言参考咨询服务。与世界其他地区相比,欧洲国家更加关注数字图书馆领域的多语言问题。在欧盟第五期架构计划资助下的14个包含多语言文献的项目中:ETRDL项目提供了包含6种语言的多语言界面以及多语言文本处理技术;SCHOLNET作为ETRDL的延伸,包含了跨语言检索功能;ECHO是包含4种语言的电影档案项目,它能通过受控词汇进行跨语言检索;MUCHMORE是跨语言信息检索在医学领域的应用项目。MultiMatcht项目是用于检索文化遗产的多语言与多媒体搜索引擎,它包括对文档以及查询进行翻译的组件。欧洲数字图书馆、博物馆、档案馆是欧洲多语言文化遗产的整合检索点。
综观文献表明,许多数字图书馆是不同国家在生成双语或者多语言文献过程中合作的产物。这些数字图书馆服务了更广阔的、甚至全球使用不同语言的用户群体,然而,他们中的许多人并不具备多语言信息检索能力。更重要的是,很少有研究从用户的视角去评估数字图书馆的多语言馆藏。在数字图书馆研究热情不断高涨的情况下,对用户研究的缺乏着实令人意外。我国也存在相同的境况。数字图书馆在中国的发展历史不长,许多数字图书馆尚没有提供多语言信息服务。随着中国愈来愈面向世界,国内研究者能够更方便地获取外语资源,并将中国的文献资料传播给世界显得愈发必要。
3 调研设计
3.1 研究问题与方法
本文的研究目标是调查了解中国的数字图书馆用户对多语言信息获取服务的真实需求和期望,包括用户是否有获取多语言信息资源的需求、用户获取多语言信息资源的动机何在、用户需要怎样的多语言信息资源、用户对多语言信息获取技术的理解如何及用户期望怎样的多语言信息获取系统等。
我们采用问卷调查的方法来探寻上述研究问题,收集不同学科背景的用户对数字图书馆的多语言信息资源获取与服务的认识。
3.2 问卷设计和数据收集
为了研究用户对数字图书馆多语言信息服务的需求,我们以不同专业的潜在数字图书馆用户为调查对象,开展了问卷调查。
调查问卷共分为7个部分,包括99个问题,其中前面11个问题是关于调查对象的个人基本信息,其余88个问题则涵盖了用户行为、多语言信息获取需求动机、多语言信息资源、多语言信息服务、多语言信息检索和多语言系统用户界面六大方面(见表1)。除了问卷第一部分“个人基本信息”采用的是单选题和多选题的方式外,其余88个主要问题均采用量表的方法进行调查,其中“1分”代表“完全不同意”,“2分”代表“基本不同意”,“3分”代表“不能确定”,“4分”代表“基本同意”,“5分”代表“完全同意”。
我们调查的目标用户主要是来自武汉大学各个专业的本科生,研究生、教师和图书馆馆员。总共有79
个人填写了问卷,他们来自不同的专业,包括图书馆学、情报学、计算机、生物、电子通信、电子工程、能源、环境、文学、外语等。
4 结果分析
4.1 问卷的信度和效度分析
我们使用的统计分析软件是SPSS 16.0。反映内部一致性信度采用的是克朗巴哈系数(Cronbach’s Al-pha),测量效度用KMO(Kaiser-Meyer-Olkin)指数和巴特利特(Bartlett)检验。各项指标的数值如表2所示:
从表2中我们看到,问卷整体Alpha值是0.924,即问卷的信度非常高。而类1和类5的Alpha值只在0.35~0.7之间,中等水平;另外四个大类的Alpha值则都在0.7以上。效度方面,六个大类的KMO值都大于0.5,表明问卷是有效的。受篇幅限制,在接下来的各小节中,我们不可能把99个问题的所有选项一一分析,而是有选择性地讨论那些最有价值的调查发现。
4.2 用户背景分析
在79份有效问卷中,用户的性别比例基本平衡;用户的年龄主要分布在20~40岁年龄段;研究生学位以上的用户占大多数(63%);用户以学生为主;用户的学科背景丰富,涉及人文社会科学和理工科等各方面;用户全部都掌握英语为其外语,但能掌握两门以上外语(包括英语)的用户只有9%左右。
此外,几乎所有受访者对网络数据库。数字图书馆、搜索引擎、图书馆的公共书目系统都不陌生,他们绝大多数均使用过一些常见的系统;用户对翻译工具的使用也较为熟悉。按照使用频率由高到低依次是;①网上数据库:中国期刊网(CNKI)、万方数据库、重庆维普科技期刊数据库、SCI、Springer、EI、人大复印报刊资料数据库等;②数字图书馆:超星数字图书馆、国家数字图书馆,国家科技图书文献中心NSTL、ACM Digit-al Library、中国高等教育文献保障系统CALIS、ProquestResearch Library等;③搜索引擎:百度、谷歌、搜狗、雅虎、天网、腾讯搜搜、必应等;④图书馆公共目录系统:本校的图书馆目录、国家图书馆目录等;⑤翻译工具:金山词霸、谷歌在线翻译、灵格斯、yadao翻译、金桥翻译等。
4.3 用户行为分析
问题1~15是调查用户获取多语言信息资源方面的行为。我们按照量表计算了这15题的平均分为3.13分,说明用户对于这部分问题的认同度是皋本中立的。在这一部分调查中,我们的主要发现如下:①对于多语言的图书和期刊,其传统纸质版与数字版相比,用户更愿意阅读数字资源;②对于检索那些用户可以识别的语言的信息资源时,用户对自己的检索往往感到满意;③用户在查找自己不懂语言的信息资源叫存在困难,但希望可以获取这些信息资源;④当检索到不懂语言的信息资源时,用户会借助翻译1具,但对翻译质量并不满意;⑤当检索到不懂语言的信息资源时,用户更可能选择放弃而不是向朋友或图书馆员求助。
上述发现说明,用户希望且需要获取多语言信息资源,但当检索他们不懂的语言的信息资源时又会遇到困难。翻译工具非常有帮助,但翻译结果不尽人意。
4.4 用户需求动机分析
问题16~30是调查用户获取多语言信息的动机。我们按照量表计算了这15题的平均分为2.92分,说明用户对于这部分问题的认同度是趋于中立的。平均得分在3.0以上的需求动机说明大部分用户对其是基本认同或认同的,按照分值从高到低排列如表3所示:
以上结果表明,驱使用户去获取多语言信息资源的主要动机更多地与工作、研究相关,而不是日常生活需要。
4.5 多语言信息来源分析
问题31~52是研究用户如何利用和评价多语言信息源。我们按照量表计算了这22题的平均分为3.61分,说明用户对于这部分问题的认同度是趋于同意的。在这一部分调查中,我们的主要发现如下:①用户获得学术信息的主要来源是搜索引擎,其次是数字图书馆,再次是传统图书馆;②用户在检索搜索引擎、数字图书馆和传统图书馆时曾使用过多语言信息资源;③在检索中文学术资源时,用户使用中文的数字图书馆和搜索引擎;而检索外文学术资源时,则使用相应语言的数字图书馆和搜索引擎;④多数用户在过去曾使用过Google跨语言搜索引擎,反映普遍较好,但却很少人使用过Yahoo Babel Fish跨语言检索系统;⑤用户并不满意目前数字图书馆、搜索引擎和传统图书馆提供的多语言信息资源;⑥用户并没有明确表示他们对多语言信息资源获取方式的不满意;⑦用户非常期待整合的多语言数字图书馆,因为它容许用熟悉的语言检索不熟悉语言的资源。
4.6 多语言信息服务分析
问题53~69是研究数字图书馆应该提供的多语言信息服务。我们按照量表计算了这17题的平均分为3.98分,说明用户对于这部分问题的认同度是基本同意的。平均得分在4.0以上问题说明用户对其认同度较高,按照分值从高到低排列如表4所示:
可以看出,用户确实需要数字图书馆的多语言信息服务,其中最期望的是专业词汇翻译和摘要翻译,而不是以全文翻译。同时,他们也希望数字图书馆提供聚类功能以组织多语言信息资源,以及一些互动服务功能。
4.7 多语言信息检索分析
问题70~74揭示了数字图书馆应有的一些多语言检索功能。我们按照量表计算了这5题的平均分为3.90分,说明用户对于这部分问题的认同度是基本同意的。平均得分在4.0以上问题说明用户对其认同度较高,按照分值从高到低排列如表5所示:
因此,跨语言信息检索对于用户来说是十分必要的,也是十分期待的。用户同时也非常希望检索系统能将检索结果翻译成他们可以识别的语言或者母语,当然,这种结果的翻译如果能在摘要层面就可以了。此外,系统最好还能够提供一些帮助用户对查询翻译进行歧义消除或者帮助用户选择查询翻译的辅助功能。
4.8 多语言信息系统界面分析
问题75~88是询问用户心中理想的多语言系统界面是怎样的。我们按照量表计算了这14题的平均分为3.89分,说明用户对于这部分问题的认同度是基本同意的。平均得分在4.0以上问题说明用户对其认同度较高,按照分值从高到低排列如表6所示:
这些调查结果表明用户倾向于数字图书馆界面能够在翻译方面提供更多的帮助。
4.9 用户的其他建议
除了选择和打分以外,我们还设置了一个开放问题让受访者对此次调查提出任何意见或建议。我们也收到了一些问卷中未涉及的建议,总结如下:①提供句子,全文翻译不应该是重点,毕竟真正的理解还在阅读者,但是提供专业词汇的准确翻译确实很有必要的,因为准确的专业翻译可以帮助研究人员迅速找到问题所在。重点应该在关键词同义词的搜罗和相互启发,用一个关键词检索时,其他相似或同类的关键词的结果也应该显示,可以帮助研究者更全面地掌握世界研究情况。②数字图书馆的多语言问题对不同领域可能有不同的需求,如对理工科影响较小,因为绝大多数的工作都是用英文发表的。而有些专业领域研究人员多语言需求明显些,比如植物动物研究等,这些自然资源分布在不同语言的区域。另外,文化领域多语言需求也会比较明显。③数字图书馆的系统界面最好能够根据用户需要来定制界面所显示信息的语言。
5 结论
本文进行了一项用户调查以研究数字图书馆多语言信息获取的用户需求,结果发现,数字图书馆用户对多语言信息十分需要,然而,用户在过去关于数字图书馆的评价标准中并没有涉及多语言信息获取系统及其应用,说明这个问题在过去未被清楚地认识到。通过本文的调研,我们发现,用户往往在寻找他们不熟悉语言的信息上存在困难,因此,他们需要有效的翻译工具和多语言数字图书馆提供帮助。这些数字图书馆要整合用户获取多语言信息资源的常用工具,尤其是跨语言信息检索确实很实用,这样就可以为用户提供翻译其他语言的信息,而不用用户掌握更多语言。另外,用户倾向于使用交互式数字图书馆界面,它们可以提供更多的多语言信息获取帮助,如任何语言的专业术语和摘要的翻译功能、整合功能、翻译助手和翻译已检索到的结果集并以原语言返回给用户等。
由于本次调查问卷是中文的,默认用户群是母语为中文的用户群体,调查的结果可能会有中文到其他语言的这种跨语言信息服务倾向,我们在今后的研究中将进一步调研其他语言用户对多语言数字图书馆的需求,并思考如何利用调查结果帮助数字图书馆提高多语言信息服务。
转载注明来源:https://www.xzbu.com/1/view-152570.htm