人文社科专题数据库关联数据模型的构建与应用研究
来源:用户上传
作者:
摘要:[目的/意义]当前人文社科专题数据库之间存在资源分散独立、难以互操作的问题,关联数据模型的提出能够建立人文社科专题数据库之间的联系,深度揭示资源实体的语义关系,促进互操作。[方法/过程]构建了面向人文社科专题数据库的关联数据模型,模型包括数据采集层、资源描述层、本体构建层、关联数据层以及综合应用层,并以相关文献数据平台为实例对该模型进行了实证分析。[结果/结论]关联数据模型是人文社科专题数据库建设规范化管理的重要内容,人文社科专题数据库关联数据模型的实践与应用可有效推进相关资源整合、数据共享等工作的展开。
关键词:人文社科;专题数据库;关联数据模型;元数据规范;本体
DOl: 10 .3969/j .issn .1008 -0821 .2019 .12 .003
[中图分类号] G250. 74 [文献标识码]A [文章编号]1008-0821( 2019) 12-0019-09
专题数据库是面向特定主题的数据资源集成平台,具有类型多样、专业性强、内容专深的特点。在人文社科领域,专题数据库是人文社会科学数据资源开发与利用的创新手段和重要途径,在学术资料提供、战略决策支持、传统文化传承等方面发挥着重要作用。然而,由于建库导向的差异,目前各级各类人文社科专题数据库建设彼此之间相互割裂,形成了一个个知识孤岛。一方面,现有的专题数据库种类繁多,各类建库主体彼此从各自的情况和需要出发构建了内部的数据模型和服务架构,缺乏统一公认的规范标准体系;另一方面,专题数据库本身作为一种系统性、“标识性”的数据资源集成,其数据资源量多庞杂、异质多元。因此,以传统方式来进行数据和信息组织并不能解释资源之间的内在逻辑关系,无法形成语义上的勾连,也不便于服务端用户的检索利用。
随着开放科学、协同创新等理念的兴起,传统的以机构、资源为导向的专题数据库建设方式已经不能满足社会对资源共享互通的需求,特别是在大数据、智慧数据等理念的影响下,人文社科专题数据库亟需序化组织建设,以规避信息迷航等问题。关联数据作为数据库序化建设的基本技术,能够有效进行信息组织,促进数据的关联共享。为此,需要应用关联数据及其相关技术将不同领域、不同类型的专题数据库关联起来,推动其整合复用,实现知识的共享共建。具体来说,就是通过构建人文社科专题数据库关联数据模型,整合碎片化信息资源,揭示资源实体的语义特征,建立资源间的深度互联,提高信息资源的利用、共享和管理效率。有鉴于此,本文拟构建面向人文社科专题数据库的关联数据模型并对其进行实证,以期为人文社科专题数据库的关联数据实践提供示范参考。
1 相关文献综述
数据资源作为专题数据库建设的基石,其组织聚合至关重要,在这一过程中关联数据及其相关技术发挥着重要作用。关联数据由语义网的创始人Berners-Lee T于2006年首次提出,是一种在语义网上发布、共享和联接各类型数据资源的方式[1]。经过十余年的发展,关联数据已有较高的接受度与使用率,应用领域也在不断扩大,相关研究从概念探讨、技术介绍发展到实践应用层面。
在关联数据技术介绍层面,沈志宏等在Bem-ers-Lee T制定的关于内容描述的关联数据发布的“四大基本原则”的基础上,提出了关联数据技术体系,包括关联数据的数据内容与组织技术、创建与发布技术、浏览与检索技术、互联与维护技术[2],该技术体系揭示了关联数据技术的中心工作为生产数据和消费数据。其中,关联数据的创建与发布技术、浏览与检索技术可视为核心,主要包含关联数据互联技术、发布技术、可视化技术与自动化问答技术。研究者们在介绍关联数据技术的同时,尝试将这些技术融入相关数据资源、数据库的建设之中,如沈志宏等指出,关联数据互联技术的基石是HTTP与RDF,瑞典联合目录(LIBRIS)作为全球第一个关联数据化的联合目录,可被视为图书馆界关联数据互联的示范应用[3]。夏翠娟等介绍了关联数据发布技术的支撑平台Drupal,并通过该平台将“中国历史纪年和公元纪年对照表”发布为关联数据[4]。欧石燕等提出了一种面向图书馆关联数据的自动问答新技术[5]。陈涛等以家谱知识库为例,列举了一些适用于关联数据系统中不同形式数据资源的可视化技术和实现方法,如通过JSON数据格式进行可视化等[6]。
在关联数据实践应用层面,小范围且较为表层的数据关联实现依然是主流。研究者们主要以案例分析的方法展开相关研究,如大多基于关聯数据的基本规则,提出特定类型资源的关联数据模型,或通过使用D2R、Drupal等知识组织平台构建并发布特定领域数据库/知识库资源的关联数据集。如刘美杏等构建了古道线性文化遗产的关联数据模型[7];张乐等以民国建筑知识库为例,设计了相关关联数据本体,并通过Drupal平台实现了民国建筑关联数据的发布[8];董坤等构建了MOOC资源本体描述模型,并借助D2RQ关联数据发布平台实现了MOOC资源主体及其之间关联关系的语义化揭示[9];上海图书馆则发布了家谱关联数据集[10]等等。以上研究中涉及资源所属范围或领域有一定程度的狭隘性,且这些关联数据并没有直接的联系,处于分散独立状态。
综上所述,现有文献的关注点聚焦于关联数据技术的开发与应用,但是研究止步于对特定领域、特定资源类型关联数据的探索,而鲜有面向整个人文社科领域的专题数据库关联数据的研究。作为知识资源的集散地,人文社科专题数据库数据资源具有多种类、高价值的特征,然而目前人文社科专题数据库内的资源趋于分散、断面,数据资源的关联数据也联系薄弱,同时库与库之间也是相互孤立的。此外,随着数字人文、社会计算等领域的发展,数据资源在人文社科研究中的地位不断提升,人文社科的研究范式和研究问题发生变革,科研工作者等主体对跨领域数据的需求增加,因而人文社科专题数据库建设也应该以相关主体对数据资源的融合需求为导向,与时俱进。 有鉴于此,进一步挖掘与关联人文社科专题数据库数据资源,构建面向人文社科专题数据库的关联数据模型具有重要价值。在此背景下,如何打破各人文社科专题数据库孤立、异构且只将重点放在本库数据关联组织的局面,实现专题数据库之间、专题数据库与外部资源的互联互通,成为一个值得关注的议题。
2 人文社科专题数据库关联数据模型框架
目前,人文社科专题数据库数量众多,政府部门、高校、研究机构、企业单位、非政府组织(NGO)以及非营利组织(NPO)等不同主体在不同的需求导向下纷纷建立了各种专题网站和数据库平台。然而,不同领域、不同类型的专题数据库的数据资源之间缺乏统一的描述与组织方法,整体之间缺乏知识的关联和流动,因此亟需建立一种通用的、与领域无关的关联数据框架,链接单库或多库的数据资源。
基于此,本研究拟构建一个面向人文社科专题数据库的关联数据模型,该模型以元数据为基础,对采集到的数据资源进行语义化描述,而后采用本体、关联数据技术进行知识组织,以实现多源异构数据之间的共享互联。如图1所示,该关联数据模型共有5个层次,分别为:
1)数据采集层,主要工作为专题数据库基本数据资源实体及其属性的采集与清洗;
2)资源描述层,基于数据采集层采集并清洗的数据,选用合适的元数据规范描述各类资源实体的属性特征,并借助资源描述框架( RDF)工具呈现资源实体的语义内容;
3)本体构建层,在元数据语义描述的基础上,选择适用的本体构建方法构建目标资源本体,以实现各类元数据的语义互操作;
4)关联数据层,本层将根据关联数据的标准对上述元数据本体进行关联,形成一个资源聚合网络,以揭示资源实体间的隐性关系;
5)综合应用层,主要工作为发布关联数据并为用户提供浏览、检索、共享等服务。
以抗日战争与近代中日关系文献数据平台(以下简称案例平台)为参照实例对上述模型进行实证,验证该模型的可行性。该案例平台是一个对外开放使用的专题数据库,拥有文献、图片、音频等多类型资源,便于关联数据的构建。
3 数据采集层
如图1,数据采集层为构建人文社科专题数据库关联数据模型奠定了基础,成为推进人文社科专题数据库资源组织与利用的源动力。在数据采集时,在保证常见的数据资源实体及其基本属性数据获取的同时,需要兼顾到人文社科专题数据库资源异构多元的特征,以便在基本人文社科专题数据库资源架构的基础上,扩充领域特色资源实体及其属性数据,为后续的特色化关联数据构建提供数据支撑。数据采集完成以后,还需要进行数据清洗、数据分类、数据整合等数据处理步骤,为之后的元数据描述以及最终的关联数据发布做基本数据准备。表1为案例平台资源实体类型及其属性特征,关联数据模型中其他环节工作的展开均依托于该表揭示的内容。
4 资源描述层
资源描述层即元数据描述层,该层基于数据采集层中整合的资源实体属性,通过运用特定的元数据规范并结合RDF工具,来描述数据采集层中整合的资源实体,从而揭示其结构特征和内容特征,以便识别、追踪、评价目标数据资源,并达成高效管理的目的。
为了能够对不同领域、不同类型、不同形式、不同时期的数据资源进行充分描述和处理,来自不同领域的专业人员研究并制定了应用于特定领域或特定场合的元数据规范。如表2所示,不同类型资源适用的元数据规范不同。通过阅读和总结国内外研究,筛选出表2中目前在国内外应用较为广泛、较有影响力的8种元数据规范,分别为DC(都柏林核心元数据)、MARC(机读编目格式标准)、VRA(视觉资料核心类目)、CDWA(艺术作品)、EAD(编码档案描述)、FGDC(地理空间元数据内容标准)、GILS(政府信息定位服务)以及TEI(电子文本编码与交换)[11],不同的元数据规范中有数量不等的描述元素以揭示资源实体的属性。
以案例平台中的音频资源为例,使用XML语言结合RDF工具定义的通用三元组(资源一属性一属性值)对其属性以及对应的属性值进行描述,运行结果如图2所示。使用简明、可扩展的DC元数据规范(即Dublin Core,是目前全球应用最广泛、频繁的一种元数据标准)即可较为清晰完整地描述该音频资源的各项属性特征。
然而,人文社科专题数据库内的资源类型繁多、内容属性复杂,同时一种元数据规范中的元素可能不能详尽描述一种资源实体的全部属性,即元数据规范不可直接全盘复用,需要重新定义元素以描述最初选择的元数据规范不可直接描述的属性,因而面向人文社科专题数据库资源的元数据语义化描述工作需要严格依照以下流程:
1)确定关系,即明确资源实体内容及其属性特征:
2)选择规范,即根据资源实体内容及其属性特征,选择适用的元数据规范;
3)基本描述,即使用已选元数据规范内的基本元素对资源实体基本属性进行描述:
4)完善描述,即复用其他元数据规范元素或重新定义元素,以描述已选元数据规范不可描述的实体属性,完善语义描述;
5)检查核验,即检查在上述描述过程中是否有属性遗漏未描述,同时核验描述语句是否有误,若有误,则进一步修正完善。
综上,同一人文社科专题数据库内一般采用多种元数据规范,且不同人文社科专题数据库应用的元数据规范更是大相径庭,造成这些元数据规范即便拥有相同的核心元素,也无法完全兼容。此外,元数据规范是人为设计的,元素的语义内涵缺乏统一明确的标准,对其理解往往因人而異,所以即使依托计算机的强大功能也无法对元数据进行直接处理。因此,使用元数据规范进行资源描述虽然建立了人文社科专题数据库的语义基础,但却无从解决资源描述的异构性与语义性的问题[12]。
5 本体构建层与关联数据层
由于本体构建和关联数据是知识组织过程的关键环节,所以本体构建层和关联数据层可视为人文社科专题数据库关联数据模型的核心。 5.1 本体构建层
所谓本体,即关于共享概念模型的明确、形式化的规范说明[13].此概念模型可理解为概念与概念之间的关系。本体构建层便是弥补上述元数据描述局限性的关键环节,该层基于元数据语义描述,主要任务是设计一种机制以实现不同元数据间的语义互操作。目前主流的本体构建方法有二:一为多本体模式,一为混合型模式。前者的主要步骤为采用本体描述语言(一般为OWL语言)对每种元数据规范进行本体化描述,且以构建的元数据本体为基础,将目标元数据转变为RDF形式,而后基于不同元数据本体之间的映射关系实现不同语义的RDF元数据之间的语义互操作。使用后者构建本体,首先需要整合不同元数据规范中的概念和属性:继而采用本体描述语言构建相应的集成元数据本体,最后转化成统一的具有相同语义的RDF形式,实现不同类型元数据的语义转化[14]。二者的主要区别为构建过程中使用的元数据规范是相互独立或相互融合的。这两种方法各有利弊,前者的灵活性较强,语义互操作则较为复杂;而后者的语义互操作相对简单,但灵活性较差。
考虑到人文社科专题数据库内的资源类型多样、体系庞杂的特征以及本体建设对易用性、通用性的基本要求,本研究选取多本体模式来构建一个各领域通用的、集成的核心元数据本体。由于DC元数据是资源描述的通用元数据规范,能够比较全面地揭示数字资源的主要属性特征,且应用广泛,因此本核心元数据本体构建拟采用以DC元数据为主的元数据规范.DC元数据具有15个核心元素,可表示为“DCTERMS:元素名称”的形式,并辅以FOAF等其他元数据本体。各领域、各类型人文社科专题数据库一般拥有文档、图片、音频和视频4种组织形式的资源,因而在该核心元数据本体中,按照组织形式将数据资源分为文档( Docu-ment)、图片(Image)、音频(Audio)和视频(Video)4种类型。文档(Document)部分拟整合复用欧石燕构建的数字图书馆文献资源核心元数据本体[14]。一方面,现有领域本体较为成熟,可以提高语义的精确性:另一方面,复用已有领域本体可以在一定程度上降低人文社科专题数据库资源本体的构建难度,支撑之后的关联数据构建。对于人文社科专题数据库资源涉及人员信息,本研究选择复用现有本体FOAF中的Agent类及其相关属性进行描述,主要属性有Name、Title、Gender等。因此,人文社科专题数据库核心元数据本体中相关类和属性如图3所示。
5.2 关联数据层
关联数据层的主要目标是构建相关资源的关联数据框架,在元数据语义描述和本体构建环节初步实现人文社科专题数据库资源语义层面上的描述和关联关系的揭示的基础上,更进一步地揭示不同资源间的隐性语义关系,使得表面、单一、薄弱、狭窄的关联关系能够得到深化完善。因此,本层将以关联数据形式将RDF语义元数据进行相互关联,揭示不同资源间隐含的关系,使资源之间能通过RDF链接进行相互访问,将人文社科专题数据库繁杂的资源集成一个相互关联的有机聚合网络,以促进资源的共享共建。
构建关联数据的基本步骤如下:
1)创建统一资源标识符( URI),即给予每个资源实体一个永久的标识符,使之得以被区别和精确检索;
2)资源实体RDF化,即以RDF的格式去描述各个实体,从而为关联数据的发布奠定基础;
3)资源实体关联化,即使用RDFlink来描述各個实体之间的深层关系,这也是数据如何进行关联的依据。
同样以第4节中案例平台中的音频资源——《志愿军在友邦》为例,按照以上步骤构建其相关本体语义关联数据。首先,创建资源实体的URI,通用结构为域名+实体类型+实体序号。平台网址http://www. modernhistory. org.cn可以直接被确定为案例平台资源管理的网址,即URl中的域名部分;资源实体类型包括文档( Document)、图片(Im-age)、音频(Audio)和视频(Video)4种类型。因此,案例音频资源的URI便可假定为http://www. modernhistory. org. cn/Audio/20191105。其次,参考图2中的元数据描述框架以及图3的核心元数据本体,构建该音频资源本体间的语义关联框架,具体内容参见图4。
根据案例平台中各类资源实体之间的深度语义联系,可以更进一步地扩展上述语义关联。例如,平台内以“陈田鹤”为主要责任者的资源类型,除了音频,还有图书,如《陈田鹤音乐作品选》和《陈田鹤音乐专辑手稿》等。同时,以抗日战争为主题的资源,除陈田鹤的相关音频之外,还有图书、红色文献、期刊。按照URI的创建规则,依次赋予以上资源实体唯一的资源标识符,则拓展的关联数据示意图如图5所示。
需要注意的是,本研究虽然仅以单个案例平台为实证对象,验证构建的人文社科专题数据库关联数据模型的可行性,但是该模型是面向整个人文社科专题数据库的,同样适用于多个专题数据库关联数据的构建。即多个专题数据库在关联数据构建过程中严格遵循模型基本步骤,包括数据的采集与整合、元数据规范化语义描述、核心元数据本体的构建以及关联数据语义互联,最终可以以资源实体间的共同属性特征为桥梁,建立关联关系,形成关联数据网络,最终实现多库资源间的语义互操作。
6 综合应用层
在对人文社科专题数据库资源序化组织并构建了相应的关联数据后,需要发布关联数据,以便后续的消费。在发布关联数据时,需要同时将数据的体量、储存方式以及更新频率纳入考虑范围,根据不同的实际情况选择不同的发布方式以及发布平台。目前,应用较为广泛的关联数据发布工具主要有Pubby、D2R、Linked Media Framework、LinkedData API、Virtuoso和OAI2LOD Server等6种,各有优劣。由于人文社科专题数据库资源体量大、种类多,同时需要实时定期更新,因而选择能够将全球范围内的关系型数据库快速发布成关联数据的D2R平台作为最终关联数据的发布平台恰如其分。 在关联数据发布之后,后续还需要依托相关技术为用户提供相应的浏览、检索和共享服务,以体现其价值与意义。同时,将关联数据投入消费和应用,有助于发现问题,及时矫正与完善。提升关联数据相关服务质量可以从两个方面人手:其一,根据资源实体之间的关系特征,为用户智能推送个性化资源,提高资源的利用率;其二,基于资源实体的属性特征,加强资源实体的语义分析与推理,以提高资源关键词与检索词之间的文本相似度,优化检索结果。
7 总结与展望
人文社科专题数据库资源类型多元,内容丰富,但存在异构、无序、断联等问题。因此,本研究构建了一个面向人文社科专题数据库的关联数据模型,该模型共有5个层次,分别为:数据采集层、资源描述层、本体构建层、关联数据层以及综合应用层,模型的核心是知识组织层面的本体构建层和关联数据层。同时,本研究以抗日战争与近代中日关系文献数据平台为例,对构建的关联数据模型进行了实证。
未来,人文社科专题数据库关联数据模型的相关研究与实践需要深入思考以下问题:
1)关联数据模型的普适性。关联数据模型中的关键——核心元數据本体虽然能保证使用的灵活性、共享性,便于后续关联数据的构建,但核心元数据本体一般不能容纳各种元数据规范的所有元素,对于一些特定的资源实体类型,需要自主添加属性元素到核心元数据本体中。除了特殊资源实体类型之外,其他普通资源实体中的属性元素也有更多的展开空间,在注重核心属性元素的同时也要兼顾这些属性元素。后续的研究应该根据资源实体特征,完善核心元数据本体,提升关联数据模型的普适性。
2)关联数据模型的客观性。关联数据构建工作中不可避免地存在着一些主观环节,如资源实体的分类、属性的自定义、URI的构建等,这些工作还有诸多可商榷之处,需要在扎实的调研分析中查检核验,以提升关联数据模型的科学性与客观性。
3)关联数据模型的时效性。人文社科专题数据库是一个持续生长的有机体,存在实时动态更新的特征,且关联数据的相关技术也是不断发展进步的,因此关联数据模型的时效性也需要深入探讨。由于在实践中,不能实时展开跟进、更新工作,因而更新的周期、频率以及技术的选择将是后续探讨的方向。
综上所述,后续的研究应围绕提升人文社科专题数据库关联数据模型的普适性、客观性和时效性展开,以完善相关标准、提升相关技术,推进人文社科专题数据库建设规范化管理。
参考文献
[1] Berners-Lee T.Linked Data Personal Notes on Design Issues forthe World Wide Web[ EB/OL]. https://www. w3. orqDesignls-sues/.2019- 10-24.
[2]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010,(11):1-9.
[3]沈志宏,黎建辉,张晓林,关联数据互联技术研究综述:应用、方法与框架[J].图书情报工作,2013,57( 14):125- 133.
[4]夏翠娟,刘炜,赵亮,等.关联数据发布技术及其实现——以Drupal为例[J].中国图书馆学报,2012,38(1):49-57.
[5]欧石燕,唐振贵,面向图书馆关联数据的自动问答技术研究[J].中国图书馆学报,2015,41 (6):44-60.
[6]陈涛,夏翠娟,刘炜,等.关联数据的可视化技术研究与实现[J].图书情报工作,2015,59( 17):113-119.
[7]刘美杏,徐芳.古道线性文化遗产信息资源关联数据模型构建及其实证研究[J].图书馆学研究,2019,(14):40-50.
[8]张乐,常娥.基于Drupal的民国建筑知识库关联数据的组织与发布研究[J].图书馆学研究,2018,(19):66-72.
[9]董坤,谢守美.基于关联数据的MOOC资源语义化组织与聚合研究[J].情报杂志,2016,35 (6):177-182.
[10]夏翠娟,刘炜,陈涛,等,家谱关联数据服务平台的开发实践[J].中国图书馆学报,2016,42 (3):27-38.
[11]许鑫,张悦悦.非遗数字资源的元数据规范与应用研究[J].图书情报工作,2014,58 (21):13-20,34.
[12]刘炜,李大玲,夏翠娟.元数据与知识本体[J].图书馆杂志,2004,(6):50-54,49.
[13] Studer B, Benjamins V R, Fensel D.Knowledge Engineering:Principles and Methods[J].Data and Knowledge Engineering,1998, 25 (1/2): 161-197.
[14]欧石燕.面向关联数据的语义数字图书馆资源描述与组织框架设计与实现[J]中国图书馆学报,2012,38( 6):58- 71.
(责任编辑:陈媛)
收稿日期:2019-10-14
基金项目:国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”(项目编号:18ZDA326)。
作者简介:施艳萍(1993-),女,博士研究生,研究方向:知识管理与学术评价。李阳(1989-),男,助理研究员,研究方向:竞争情报与信息资源管理。
转载注明来源:https://www.xzbu.com/4/view-15106335.htm