您好, 访客   登录/注册

基于本体的楚辞书目相关检索研究

来源:用户上传      作者:

  [摘要]结合楚辞古籍文献的特点,分析楚辞书目实体款目相关性的主要内容及款目间的关联关系,利用本体建模元语定义楚辞书目的类、属性、属性关系和实例,构建楚辞书目本体,实现楚辞书目语义关联检索。通过实例列举直接语义关联检索、间接语义关键检索和语义智能推理检索功能及其实现,并对检索结果的关联程度进行数据统计对比分析。最后提出将楚辞数字目录与相关古籍内容关联的进一步构想。   (关键词]楚辞书目 本体 相关性 关联检索 语义   [分类号]G254.36   1 引言   楚辞是战国时期以屈原为代表的楚国人创作的诗歌,2000多年以来,楚辞研究者留下了300多种专著、2000多篇论文以及近千种札记,南通大学图书馆和楚辞研究中心采用计算机技术,对收集到的楚辞相关古籍里的文字、图像符号、地图等进行扫描并转化为能被计算机识别的数字符号,进而制成电子索引并通过元数据标引建成楚辞书目数据库和全文数据库,实现关联检索。目前已经完成了近百本楚辞相关古籍的数字化和3000余篇楚辞相关古籍研究论文的全文数字化工作,建成了楚辞书目库、楚辞论文索引库、楚辞音像资料库及楚辞相关古籍全文库等。本文在此基础上利用本体技术对楚辞书目进行语义相关性分析,并构建楚辞书目本体以实现楚辞数字目录语义检索,改进传统检索系统只能查询关键词而缺少概念间语义关联的局限,增强检索结果的相关性和联想性。   2 楚辞书目相关性分析         传统的书目检索主要依赖于关键词,读者常常因为缺乏对目标词清晰准确的界定,导致检索的准确度和效率不高,同时由于系统极少提供书目关联信息,读者难以沿着感兴趣的文献线索持续检索并发现更多感兴趣的线索。为此,我们在对楚辞相关古籍文献数字化的过程中,首先分析楚辞书目之间的关联性,即选择了楚辞学界公认较权威的姜亮夫先生的《楚辞书目五种》作为底本进行分析。该书从目录学角度将楚辞相关古籍分成5种:楚辞书目提要、楚辞图谱提要、绍骚隅录、楚辞札记目录和楚辞论文目录。分析楚辞书目结构,发现楚辞相关古籍目录结构主要包括古籍作品实体款目、楚辞原著词条实体款目、参见实体款目、责任者实体款目、版本实体款目、载体形态实体款目、人名实体款目、地名实体款目、年代实体款目、音乐实体款目、节庆实体款目、植物实体款目、馆藏实体款目、研究实体款目等,这些款目之间存在着内容和形式上的多种相关性,如表1所示:   3 楚辞书目本体构建与书目相关检索实现   3.1楚辞书目本体构建过程   为了具体实现楚辞古籍实体款目之间的相关性,我们利用本体论思想和本体建模工具构建楚辞书目本体。Perez等人按分类法组织和归纳出了本体包含的5个基本的建模元语(modeling primitive),这些元语分别为类(classes)、关系(relations)、函数(functions)、公理(axioms)和实例(instanees)。楚辞书目本体的构建基于上文对楚辞书目相关性的详尽分析,并参照了FRBR概念关系模型、Perez的五元组分类法,以《楚辞书目五种》对楚辞相关文献的归纳与划分的书目结构为素材,利用本体建模元语构建的楚辞书目本体共包括35个本体类,24个对象属性,20个数据类型属性,约5300个实例。   3.3.1创建楚辞书目本体的类 本体类是一种特殊的资源,它描述了具有共同特征或者在某方面相似的资源的集合。楚辞书目本体的类基于《楚辞书目五种》以及表1对楚辞等古籍实例间的关联分析,划分出了35个基本本体类。部分基本类如表2所示:   3.3.2定义楚辞书目本体的对象属性 对象属性是实体间的联系,在资源描述中充当谓语作用。依据《楚辞书目五种》及其涉及的楚辞相关古籍的背景和内容,构建了24个楚辞书目本体的对象属性,示意图见表3。表中注释(comment)是为了帮助用户理解代码而添加的,通过成为标注(annotation)的属性标签来让计算机读取。定义域指定了使用当前待描述属性的陈述中充当主语的所有个体的类型。值域指定了所有个体的类型或者所有文字的数据类型,并且这些个体或文字在使用当前待描述属性的陈述中充当宾语。   3.3.3确定楚辞书目本体的数据类型属性 数据类型属性用来连接实体的一些文字值,它不可以作为陈述的主语,只能做为宾语。比如人名的字、号、笔名、官职等,书目的出版地、内容等,馆藏图书的版本、版本类型、版本注释、版本形态、版本评论等,音乐作品的曾用名、作品url地址等。例如描述人名实体用string类型,描述年龄实体用int类型等。   3.3.4用protege工具实现楚辞书目本体 本文采用protege软件来实现楚辞书目本体的可视化,该软件提供r很好的可视化界面操作,可以很方便地添加类和属性,可以生成xml、turtl、rdf或owl格式的本体文件,并提供有Sparql查询接口、pellet推理机和SWRL规则语言编辑添加接口等大量插件。将类和属性添加到本体中后,可在ontoGraf标签下看到加入对象属性之后类之间完整的关联关系图(见图1)。在生成的图形中,方框表示类,有向边实线表示类间单纯从属关系,有向边虚线表示类间属性相关关系。通过图1可以发现,在添加了属性后,在书目各实体款目类间出现了可能的多种关联关系,这为古籍目录相关性的深入研究和关联检索的实现提供了可能性。   以下通过“创作关联”、“年代关联”以及“地名关联”三个实例具体分析楚辞书目本体类之间的属性关系:①创作关联。作者与作品通过一对相反属性owl:isCreatorOf与owl:isCreatedBy构成了楚辞文献类或参见作品类与人名类之间的创作关联。在protege工具的预览图中,可以看到创作关联的关联效果(见图2)。图中,人名类有“刘向”和“杨雄”,通过属性owl:isCre-atorOf与《天问解》产生关联,而《天问解》属于楚辞文献类或参见作品类,从而产生了创作上的关联。②年代关联。年代关联通过一对相反对象属性owl:isHap-penedTimeAt与owl:isHappenTimeof或其他表示时间相关的对象属性对来关联。图3中显示通过年代(朝代)使得各种版本问产生了关联。③地名关联。楚辞相关古籍文献中很多事件都与地点相关,通过一对相反的对象属性owl:isHappenedPlaeeAt与owl:isHappen-PlaceOf或其他表示地点相关的对象属性对来关联。图4中,地名类有“江苏”,人名类有“刘安”、“刘歆”、“刘向”、“归有光”、“尤侗”等人,这些人均出生于江苏,从而产生了人名-地名关联。   各种简单关联合并之后使楚辞书目本体形成了复杂的关联关系,也正是由于存在这些复杂的关联才使得本文对古籍书目相关性研究具有很重要的意义,并且为楚辞书目语义关系查询提供了可能。  3.4具有推理功能的楚辞书目本体语义检索实现   语义关系查询是一个发现楚辞书目关联信息的过程,本文采用Sparql查询语言。SparqL(simple protocoland RDF query language),是专门为RDF开发的一种查询语言和数据获取协议,用于任何可以用RDF来表示的信息资源。   3.4.1直接关联查询 直接关联是指查询的两个实例通过某种关系直接关联起来。例如查询通过“创作”关联起来的文献与人名,Sparql查询语句为:   部分查询结果见图5。可见,不同的文献可能通过同一作者相关联,同一文献也可以关联到两个不同的作者。   3.4.2间接关联查询 间接关联查询是指两个实例在通常情况下并不相干,但由于某些中间关系的存在使得本不相干的两个实例建立了某种关系。例如查询文献馆藏地与各种与版本之间的“版本关联”的文献名、馆藏、刻本以及版本。Sparql查询语句为:      部分查询结果见图6。可见,若文献与馆藏关联,刻本与版本关联,通过馆藏与刻本关联可使文献与版本产生一定的关联。   3.4.3智能推理查询 智能推理是指在知识库中并未明确指出两者之间的相互关系,而是通过与其他实体间关联而潜在蕴含的知识,可以通过编写简单的规则语句交由推理机来实现推理。常见语义网规则语言有SWRL和Jena规则,如用SWRL规则语句判定两个人为同乡关系,规则代码如下:         推导出所有出现在楚辞本体中的所有隐含的同乡关系的人,部分结果见图7。此时在本体中并没有直接标注以isFellowTownsman属性连接的实例,但依然能检索出这种属性关系,这是通过SWRL规则起到的推理作用。   3.5结果与分析   根据上节3种查询机制的测试结果和本体中已经添加的大量实例,统计分析各种关联关系的词汇相关性程度(见表4)。   3.5.1直接关联查询分析 共检索出约320个文献名称,其中文献名称相同而人名不同的约占15.4%,人名相同而文献名不同的约占36.3%。由文献到人名的正向关联程度达到15.4%,由人名到文献的反向关联程度达到36.3%。   3.5.2间接关联查询分析 共检索出约20个文献名称,由文献通过馆藏关系到版本的正向关联程度达到4%,由版本通过馆藏关系到文献的反向关联程度则为96%。这种间接关联查询大大提高了检索的精确性。   3.5.3智能推理查询分析 去掉相同的重复选项,共检索出约1200条结果,人名中去掉重复后约占所有人名的19.7%。由人名到同乡名的正向关联程度则为19.7%,由于同乡关系为相向关系,所以由同乡名到人名的反向关联程度也为19.7%。         与传统查询相比,关联查询能够查询到更多与查询词汇相关联的词汇,而不仅仅是包含查询词的词汇,这样系统提供的书目关联信息就能够使读者沿着感兴趣的内容持续检索并发现更多感兴趣的内容。   4 结论与展望   本文所做的研究基于数字化的楚辞相关古籍、文献书目,探讨了古籍数字目录相关性的基本内容与基于本体的语义关联实现技术,并以《楚辞书目五种》中的书目结构为素材,对楚辞数字目录的相关性进行了深入分析。通过构建楚辞书目本体能够实现楚辞数字目录的语义关联,展现古籍款目之间的相关性,实现具有推理功能的书目语义关联检索。目前的研究仅针对楚辞相关古籍书目之间的相关性,这对于实现完全的古籍内容关联来说仅仅是个开头,下一步的任务将研究楚辞原著词条与楚辞注本内容之间的关联以及将楚辞原始文本与先秦典籍等参照文献之间的语义关联,以最终实现楚辞相关古籍的字、词语义化和带推理功能的关联检索和知识发现。
转载注明来源:https://www.xzbu.com/1/view-867.htm