语义关联在空间数据融合过程中的应用研究
来源:用户上传
作者:张胜强
摘 要:语义是信息能够被人们理解的自然语言表达,随着互联网技术的发展与普及,互联网成为人们获取空间数据的重要手段。该文讨论了网络空间数据的特点、空间数据的自然语言表达利用RDF、自然语言处理对空间数据进行融合匹配,提高了空间数据服务的质量。
关键词:语义 自然语言 网络空间数据 RDF 融合匹配
中图分类号:G71 文献标识码:A 文章编号:1672-3791(2019)09(b)-0022-02
随着信息技术发展产生了大量的数据,空间数据也不断的产生、更新,涌现了大量空间数据。通过多种渠道,多种方式来获取的空间数据具有以下特征:现势性好、信息丰富、质量各异、语义差异、属性字段差异、数据异构、数据冗余又不完整数据。由于原始数据的这些特征导致空间实体数据不完整、表达不一致、重复,质量无法达到要求,这些是影响空间数据服务质量的重要因素。消除空间数据间的差异实现多种来源、多种结构的空间数据融合是提供高质量的空间数据服务重要策略方法。空间数据融合主要有栅格数据融合、矢量数据融合、矢量与栅格数据之间的融合等[1]。空间数据融合的方法有地图合并、实体匹配、数据更新以及扩展方法基于统计学方法的扩展、基于信息论方法的扩展等[2]。该文讨论了语义关联在空间数据融合中的应用,空间语义是空间数据的能够被人们理解自然语言表达但是空间数据的自然语言表达不能被计算机所理解,实现空间数据的自然语言表达到空间数据的机器语言表达的对应关系,使我们在空间数据检索的过程中能够返回正确的地理信息。
1 语义关联框架
语义位置关联的基本思想来源与语义网,其核心是地理位置之间的关联关系,通过描述地理位置的语义信息、属性语义信息间的相似度来实现的,即是利用web技术在不同数据源之间构建语义位置关联关系给分布式空间数据加入可以被计算机理解的语义信息从而促进地理信息的共建、共享。语义位置关联依赖于XML、RDF和Ontology三大关键技术结合地理编码规则,可实现异构数据源的共享检索。这些技术在自然语言表达层次上对空间数据分类、标识索引实现空间数据的结构性表达。语义位置关联是在语义位置模型的基础上,动态汇集位置本身及与位置相关的信息,并与人、物、事件等泛在信息建立关联关系,进一步实现位置语义及位置关联网分析,和一组通用的位置关系和时空模式计算方法,数据融合、導航等应用奠定基础,为地理空间数据服务提供信息分类检索、信息索引以及信息整合。语义位置关联采从空间位置(地名地址及其编码)、空间形态、空间关系、空间关联、空间对比、空间趋势、空间运动、时序序列、时间周期等方面进行时空关联分析,探索获取泛在信息的时空分布、聚类模式、时空异常、趋势预测、同位模式、序列模式、周期等方面的深层关联知识,基于位置或目标实体提供全方位综合泛在信息[3]。语义位置关联重在解决网络空间数据资源的规范重构、位置语义互联和位置智能聚类。
1.1 语义位置关联的步骤
(1)建立地名地址语义库,结合地理编码规则形成地名地址语义结构标准。
(2)语义解析,结合基于字符串相似、基于内容特相似模型、基于语义距离相似等算法实现地名地址间语义关联。
(3)与地名地址服务平台集成。由基础数据库抽取元数据,对基础资源数据进行描述标记,以便于语义表达、语义匹配、建立领域知识以便于与其他数据的关系形成地名地址数据知识库。
(4)建立字典表,实现数据库模式与地理本体表达的映射,进而实现异构数据库之间的互操作。
(5)通过webservice的方式,向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。
1.2 空间数据语义关联集成的原则
原则如下:
(1)数据处理主要是清洗重复数据,异常数据、纠正收集到的数据中的错误数据。将坐标系不同的数据集转化为统一的坐标参考。
(2)对格式不同的数据进行格式转化格,转化为兼容的数据格式例如可将数据统一为shp格式数据存入空间数据库中或发布为符合OGC规范的地图服务。
(3)根据具体的地理实体的现实情况将地理实体划分为不同的粒度例如行政单位实体对象可划分为省、市、县、乡镇/街道,居民地可划分为小区/村、具体的楼号/组,户。
(4)地理实体是地理空间数据中具有完整意义的组织单元,运用面向对象思想将地理实体抽象为空间对象采用标识码来唯一标识每个对象并扩展地理对象的属性。
(5)地理实体中包含点要素、线要素、面要素、体要素、属性信息在数据重构的过程中建立实体间的级关系例如点、线、面、体的层级关系、面状实体的隶属关系。
(6)地理实体通过属性表达语义,其时空语义概念由属性集描述,而地理实体间通过泛化-特例描述地理实体间的语义关系。根据属性集的多少建立地理实体语义树。
2 基于语义的空间数据匹配
在空间数据存储管理过程中,对空间数据库的访问会存在空间语义描述的差异性为题,如何保证数据库服务器能够快速的返回正确的地理信息就需要构建空间数据间的语义关系。语义位置关联的实现的基本技术方法是语义网与全文索引技术,其核心是建立地理位置坐标与地理位置自然语言表达之间的关联关系,通过描述地理位置的语义信息、属性语义信息间与数据库中的空间数据语义表达的相似度来实现的空间数据的匹配,建立自然语义与计算机语义直接的对应关系。实现空间数据的语义关联主要使用了自然语言处理的分词技术、空间数据语义表达相似度计算方法、语义空间数据匹配等技术方法。基于语义的空间数据匹配实现的主要过程的步骤是:
(1)由基础数据库抽取元数据,对基础资源数据进行描述标记,以便于语义表达、语义匹配、建立领域知识以便于与其他数据的关系形成地名地址数据知识库。
(2)建立字典表,实现数据库模式与地理本体表达的映射,进而实现异构数据库之间空间实体数据的映射关系。
(3)建立空间数据语义表达的相似度的计算规则。
(4)通过webservice的方式,向上为访问集成数据的应用提供统一数据的数据访问接口。
(5)实现数据服务、以及语义匹配服务的发布。
3 结语
网络地理信息在生产、生活中起着越来越大的作用,网络地理信息系统在发展过程中产生了的地理空间数据越来越复杂多样。对于不同结构、不同表达方式的空间数据的集成融合在当代这个大数据时代占据着越来越重要的地位。对于自然语言的研究使得采用语义位置关联、语义位置匹配成为空间数据融合集成的一个重要的方法。本文讨论了基于语义关联的空间数据融合框架,在当今互联网大数据高速发展的过程中具有一定的优势。
参考文献
[1] 陈宝帅,穆刚.浅谈GIS空间数据融合的方法[J].城市建设理论研究:电子版,2013(10):59.
[2] 张景雄,刘凤珠,梅莹莹,等.空间数据融合的研究进展:从经典方法到扩展方法[J].武汉大学学报:信息科学版,2017(42):1628.
[3] 周成虎,朱欣焰,王蒙,等.全息位置地图研究[J].地理科学进展,2011,30(11):1331-1335.
转载注明来源:https://www.xzbu.com/8/view-15054283.htm