您好, 访客   登录/注册

基于多数据源的机构知识可视化研究与应用

来源:用户上传      作者:

  摘要:[目的/意义]单一数据源下机构知识可视化存在信息的缺失,基于多數据源的可视化可以相辅相成,互为补充。[方法/过程]分析了多数据源下机构知识动态可视化的关键技术,并针对知识节点的巨星问题给出一种多粒度数据采样和属性值加权的知识构造方法,对平台的系统架构进行了详细讨论和设计,最后基于Echarts可视化套件对平台中合作关系、研究热点、机构分布等进行了实现。[结果/结论]多数据源知识可视化平台能弥补单一数据源中可能丢失的各种关系,多粒度采样让可视化结果整体美观协调,为机构的学术发展状况、研究方向的确立、研究团队的组建等决策提供了信息支持。
  关键词:多数据源;数据抽取;可视化;知识融合;数据采样
  DOI:10.3969/j.issn.1008-0821.2019.02.020
  〔中图分类号〕G255.76〔文献标识码〕A〔文章编号〕1008-0821(2019)02-0169-09
  近些年来,国内很多大学或学术机构都在积极地建立自己的机构知识库,机构库存储和管理着大量的研究文献和机构知识,对这些大量文献进行整理和梳理,并采用各种分析方法从中获取隐含的有价值的信息和知识是图书馆提升情报服务能力的有效途径,而这个过程需要科技分析人员花费大量时间和精力。可视化分析技术以直观的方式显示知识之间的相互联系,并采用数据挖掘、信息处理、知识计量等手段把复杂的知识领域通过图形显示出来,揭示知识领域的动态发展规律[1];国内使用最多的机构知识储存平台Dspace本身没有这种可视化分析模块,很多研究者都是基于第三方工具如CiteSpace、VOSviewer等对机构知识进行可视化图谱分析[2],而这种分析结果都是静态图,并没有将其嵌入到机构知识平台实现其动态可视化;同时对这种单一源的数据进行可视化,其数据来源单一、资源有限,对应的可视化所展示的信息也有限。现实中机构同一主题的信息(如某一专家的信息)往往分布在不同的数据源中,如能从多个不同类型的数据源中进行数据的获取,这样来自不同数据源中的知识能相辅相成,互为补充,所构建的知识可视化平台也能全面丰富地反映有关主题的知识图谱网络,同时也能弥补单一数据源中可能丢失的各种关系[3]。
  基于此本文分析了多数据源下机构知识动态可视化图谱平台的关键技术,并针对本文讨论的可视化中出现的巨星问题给出了一种多粒度的数据采样知识构造方法,有效回避了因巨星节点产生的信息不可见问题;最后设计了多数据源下机构知识动态可视化图谱平台,实现了其作者合作关系、研究热点、机构分布等动态可视化展示,从其运行结果中该平台有效揭示了机构的研究主题、研究前沿、潜在研究团队等信息,在一定程度上为机构、用户的决策需求提供了参考。
  1关键问题
  知识可视化是当下研究的热点,谷歌公司早于2012年5月17日提出了知识图谱的概念,并宣布以此为基础构建下一代智能化搜索引擎[4]。知识可视化图谱的构建对中文信息处理和检索具有重要的现实意义和应用价值,吸引了大量的国内外研究者,其中也出现了很多可视化辅助工具,尤其在采集、预处理、分析和可视化学术数据等方面存在多种工具,许多工具不仅专业性强且功能丰富。在高校或者科研机构中构建的知识图谱大部分是通过各种专业性工具进行的手工构建,有时缺乏统一的方法,并且都是面向某一特定信息源(如Dspace数据、SCI数据、CNKI数据等),其知识源有限,所展示的信息也有限,而本文讨论的基于多数据源的知识可视化平台需要解决的问题包括以下几方面。
  1.1多数据源数据融合
  由于多数据源的知识来源于不同平台中,其知识的表示、知识的结构存在不同,同时知识之间也存在重复冗余等问题,所以必须要进行知识的融合。关于多数据源的融合已有很多理论研究成果,如文献[5]针对结构化数据、半结构化数据、非结构化数据以及现有的一些通用知识图谱库等多数据源给出了其知识图谱构建方法。本文从现实和可操作性考虑主要研究从高校和科研机构中各种结构化数据库进行数据的融合,如:机构知识库、学位论文库、专家数据库、教参库等。
  1.2可视化节点的巨星问题
  在知识图谱的节点关系图中,往往节点的大小用来反映其在机构知识中的重要程度,比如作者合作关系图中,作者节点越大则说明他的合作数就越多,而节点的大小一般都是通过挖掘机构知识中所有他的合作关系进行累加的值,由于各单位以及个人发文量以及合作人数都不一样,其作者节点大小会存在很大差别,有时会出现巨型节点,此时很多可视化平台会自动的过滤掉小节点,就好比站在宇宙边缘看整个宇宙,只需要看到大恒星,不需要看到地球等小行星,这种巨星问题会造成局部信息的丢失,即使可视化平台不过滤掉小节点,也会使整个显示效果很不美观和协调。另一方面,对于多个机构而言,用户一般只关心可视化结果中各机构间的整体网络关系情况,而对其某一单个机构的局部相关网络此时不会有太多关注。但任何一个可视化开发套件都是依据所给的数据源如实的展现知识,它无法去智能的适应这种知识机构数的变化,因此在不同的机构数下需要有不一样的数据采样粒度。
  1.3元数据的清洗
  机构知识中由于人工操作不规范,在格式和内容上存在不一致,如关键词间用逗号、汉字的分号、内容中有不该存在的字符等,这就造成元数据中存在异常的数据,需要对这些引起异常的数据进行清洗去除。因此需要分析所有异常数据可能性,并采用一定的方法最大限度地降低这些异常数据。
  2多数据源的知识可视化关键技术
  2.1基于ETL的数据抽取
  本文讨论多数据源主要针对机构中常见的各种关系数据库中的数据,文献[6]中给出了一种ETL数据抽取体系,基于此本文设计的多数据源数据抽取体系如图1所示。该体系中ETL是中间层,其依据预先定义的规则负责从各种分布的数据源中如结构化数据、文本数据等抽取需要的数据进行清洗、转换、采样、融合,最后存入到目标数据平台中,成为分析处理、数据挖掘、知识表示的基础。进行数据抽取前需要确定各数据源运行的是什么DBMS(数据库管理系统),并分析其元数据中是否存在手工输入数据(如有人工录入就存在数据的质量问题后续必须要进行数据清洗)和半结构或非结构化的数据等问题。其ETL体系中数据源访问过程分为如下:   1)数据源与目标数据库为相同DBMS:其DBMS工具一般都有同源数据库之间的访问功能,直接可在相同DBMS的数据源服务器和目标数据库之间建立直接的链接关系,并通过数据库SQL语句直接访问目标数据。
  2)不同数据源的数据库:可以先通过中间层的方式尝试与数据源建立链接,如SQL Server和Oracle之间可以通过ODBC相互访问;如两数据源之间无法通过中间层建立链接,则可以通过开发语言设计数据源访问接口来完成,如基于Npgsql.Net实现对PostgreSQL数据库的访问。
  3)文件类型的数据源(.xls.csv):直接通过工具或开发导入程序将数据导入到目标数据库平台,然后再采用方法1进行数据抽取。
  4)数据增量更新:机构知识数据量比较大,需要进行增量抽取,每次抽取数据后记录最后的操作时间作为增量的标志,在下一次抽取之前先获取目标数据库中最大的时间,然后根据这个时间去源数据库中获取大于这个时间所有的记录,因此在各数据源要设置数据的时间戳。
  2.2数据清洗
  数据清洗其任务是过滤不符合要求的数据,这个过程需要从知识元中剔除冗余和错误的概念,确保知识的质量[7]。抽取的数据不可避免地会产生数据噪声,手动录入不规范或者原始数据的标注不统一都会导致元数据中存在错误、不规范的数据。一般需要根据各数据源中业务系统的特性,对元数据进行不断查看,前期数据量越大这个过程也就越长,它是一个反复的过程,这样才能不断发现可能存在的数据问题,然后针对这些问题制定不同的清洗策略,最后得到想要的高质量的数据。
  数据清洗的主要原理:利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。本文通过以下几方面对数据进行清洗:
  1)数据输入造成的单词空格、符号中英文输入不统一等问题。采用数据库有关函数对数据进行统一处理,如Trim()对元数据中的空格进行自动去除,定义函数对元数据中的中英文符号进行转化,这样确保数据的统一性。
  2)不完整的数据:这一类数据主要是信息缺失,如作者单位信息缺失、机构位置缺失等,通过编写特定的语句从抽取的数据中过滤出这些数据,然后人工补全再写回数据库。
  3)错误的数据:主要指源业务系统没有严格的数据校验造成的数据录入错误,比如数值数据中有字母或者输成全角数字字符、邮编地址格式错误、日期格式不正确、日期越界、字符串数据后面有回车操作等。这些错误的数据需要进行分类处理,如对于类似于全角字符、数字字母混合的问题,可以通过SQL语句修正,日期格式不正确的或者是日期越界的这一类错误需要在数据源中进行修正再抽取。
  4)数据不一致性等问题。如姓名标注颠倒、关键标注不规范等,针对这一类数据利用正则表达式和模糊匹配方法完成对数据的清理。
  2.3多数据源知识融合
  同一内容在多数据源中可能用不同关键词表达,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等,如机构的中国矿业大学、中国矿大、中国矿大徐州等不同的表达方式,需要对从各源数据抽取得到的知识进行融合,以消除矛盾和歧义。文献[8]通过定义一个单词语料库,并采用语义相似度计算,统一替换所有表述不统一的元数据,保证关键词表达内容的统一性。文献[9]研究了基于关联数据的知识融合模型,该模型利用本体匹配技术来实现知识元匹配,通过融合规则与算法得到问题求解的新知识,从语义层次解决了知识结构差异性的问题。考虑到本文数据源都来自关系型的结构化数据,而结构化数据可以直接抽取关系模式映射成本体,因此本文研究设计的知识融合流程如图2所示。
  知识融合过程包括概念的融合和数据的融合:
  1)概念的融合:主要是指关系结构上的融合。①首先要分析各数据源的关系模式,构建其领域本体库。根据数据源中有关表的结构和字段信息,抽取出关系模式,建立相应的概念模型,其转换规则主要包括:将关系模式中的表名转换为本体中的概念名,表的字段名转换为本体的属性名,而表与表之间的关系则转换为本体中概念与概念的关系;最后得到该数据源下的领域本体模型。②然后是构建全局本体库。对不同领域内的本体通过相似性计算进行检测,如:语义相似性检测、概念相似性检测、属性相似性检测、数据格式相似性检测等,对于相同概念的属性进行扩充,对同一概念的不同表达消除歧义、剔除冗余和错误的概念和属性,进行概念结构层次上的融合,形成一致的全局本体库。
  2)数据的融合:主要是对基于本体库生成的实体集融合,合并具有不同实体名称的同一实体。其处理过程包括3步:①首先进行数据的分组,如果不进行数据分组,计算量会是两两比较,对于海量数据计算量将非常庞大;数据分组实际也是一个简单的聚类,可以将比较范圍缩小到同一个组内,可以根据数据本身的关键信息作为分组的依据,如融合专家数据的时候可以用出生年月、性别进行分组。②计算属性相似度,同一组中两个实体各自的属性相似性越高,其实体的相似度也越大,这里采用计算两字符串的编辑距离来获取属性相似度,如计算字符串A通过插入/删除/替换操作变换到字符串B的距离。③计算实体相似度,通过实体各个属性的相似度,直接判断实体的相似度,也可以对各个属性设置一个权重,最后计算其所有属性的加权值判断实体的相似度。
  3平台体系结构
  本文设计的机构库可视化平台系统架构如图4所示,平台主要包括:数据存储层、应用服务层、数据表示层。
  ETL数据抽取层:是整个平台的核心,该层通过一系列自动或者半自动的手段,将分散的、异构数据源中的数据抽取到该层后进行清洗、转换、融合,形成元数据知识交给数据管理层进行存储,数据源既可以来自Dspace平台中PostgreSQL库的元数据,也可来自存储在机构其它数据库中的元数据,如SQL Server、Oracle。   应用服务层:系统管理对元数据、机构、地理坐标等,可视化数据服务需要将获取的元数据进行预处理、数据清洗、规范化、分析、采样和结构映射6个步骤,其中数据清洗把脏数据、敏感数据过滤掉,采样需要剔除和可视化结果无关的冗余数据,映射是调整数据结构到表示层能接受的格式。
  数据表示层:可视化结果中无法把所有的数据都一次展示,该层需要对数据进行标准化处理,标准化的过程有赖于所依赖的可视化套件,也就是要将最终的数据转换成用户端可视化套件要求的数据格式。
  4平台实现
  本研究以中国矿业大学的Dspace机构库、Scholor专家库和学位论文库为数据源,并以Echarts[10]可视化套件作为动态可视化效果,实现了有关可视化设计,图5是显示的所有的作者合作关系图,不同院系颜色不一样,院系间存在有节点的链接,也就是说各院系间存在潜在的合作作者。
  图6是显示的单个院系(安全学院)的作者合作关系图。从图5和图6中可以看出各节点的大小不一样,它与S类结构中的Value值相关,但整个可视化界面没有出现巨星节点,节点间的大小比例都控制在比较合适的显示范围。同时从图5和图6不难看出在院系机构数不同的情况下,其机构显示的节点数不一样,实现了不同粒度的显示。另外从图6不难看出作者节点聚类为9个,也就是说该机构可能存在9个研究团体。
  5总结
  本文研究了多数据源下机构知识可视化的关键技术,并对可视化过程中的数据融合、数据清洗、数据采样等关键问题进行了详细描述,以Echarts为可视化工具对平台进行了实现,从运行结果来看,平台实现了多数据源的信息处理、知識计量和知识展示,数据查询效率高,响应快,并很好地揭示了机构知识领域的动态规律和隐含知识。本研究获取的知识数据源仅限定在关系化的结构数据,而机构中还存在很多的半结构或非结构化的数据,因此本研究所形成的可视化图对机构来说还不全面,这也是本研究的不足,下一步工作需研究从更多和更广的异构数据源中获取知识进行可视化。
  参考文献
  [1]秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,(1):30-37.
  [2]汪传雷,张岩,陈欣.基于CiteSpaceⅢ知识图谱的科技创新服务能力研究[J].现代情报,2016,36(4):156-164.
  [3]胡芳槐.基于多种数据源的中文知识图谱构建方法研究[D].上海:华东理工大学,2014.
  [4]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,(3):582-598.
  [5]吴运兵,阴爱英,林开标,等.基于多数据源的知识图谱构建方法研究[J].福州大学学报:自然科学版,2017,45(3):329-335.
  [6]徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20.
  [7]邱均平,董克.作者共现网络的科学研究结构揭示能力比较研究[J].中国图书馆学报,2014,40(1):15-24.
  [8]刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13.
  [9]高劲松,梁艳琪.关联数据环境下知识融合模型研究[J].情报科学,2016,34(2):50-54.
  [10]Echarts[EB/OL].http://echarts.baidu.com/,2018-09-05.
  (责任编辑:郭沫含)

转载注明来源:https://www.xzbu.com/4/view-15168054.htm