您好, 访客   登录/注册

关于大数据时代数据迁移关键技术的研究

来源:用户上传      作者:

  摘要:由于各行各业信息数据的复杂性和多维度,致使数据迁移成为信息系统更新的难点。随着大数据和云计算的发展,云平台数据中心已经成为各行各业信息系统的必须选择,不仅避免了资源的浪费,也很大程度上减轻了未来的数据迁移工作,为未来智能化、智慧化建设奠定了基础了。
  关键词:数据迁移;存储;数据安全;加密
  中图分类号:TP309.3 文献标识码:A 文章编号:1007-9416(2019)12-0029-02
  1 背景现状
  随着科技的发展,尤其是最近的十年,各行各业的信息数据已经进入呈指数级增长的时代,随着时间的推移,五年之前建设的信息系统已经无法满足随着信息数据的增长而带来的高性能、高并发的需求。五年的使用时间已经造成了服务器的效率急剧下降,而且存储软件在五年内也进行了多次的更新换代,老版本的Oracle软件性能已经无法满足日益增长的业务量的需求,容易出现未知的宕机情况,对生产环境产生不必要的影响。因此,生产系统在使用了五年以后,都会对其软硬件进行升级,更换更大更快的存储和更新的软件,软硬件的升级必然会涉及到数据的迁移[1,2]。
  2 数据迁移方法比较
  数据迁移时,应做到先备份,再迁移,根据自身业务特性确定迁移方法。针对oracle数据库的主流数据迁移技术有四种,分别是数据泵(DATA PUMP)数据迁移,Storage存储迁移,RMAN数据迁移,Dataguard数据迁移[3,4]。
  2.1 数据泵(DATA PUMP)数据迁移
  数据泵(DATA PUMP)是最常用的数据迁移方法之一,是一种数据库之间的高速传输技术,主要针对基于用户级别的数据迁移。在新的数据库中提前准备好和原数据库中一样的用户名和表空间,为了保持数据的一致性,需要在导出原数据库中数据之前,停止原数据库的应用服务。由于oracle9i和大于oracle10g的版本有了不同的指令变化,oracle9i的导出/导入指令为exp/imp,而大于oracle10g版本的数据库导出/导入指令为expdp/impdp。使用数据泵(DATA PUMP)进行数据迁移的优点是操作简便,可以跨平台使用;缺点是传输时间依赖网络环境,为了保持数据的一致性,原数据库在传输过程中需要停止其应用服务,即原数据库中的数据需要保持静止状态。
  2.2 Storage存储迁移
  Storage存储迁移主要针对系统新的软硬件跟之前相比相差不大,其数据库的数据文件、控制文件、日志文件、spfile等都在存储上,直接把存放这些文件的存储挂载迁移到新的服务器上,再在新的服务器上启动数据库即可。使用Storage存储迁移的优点是迁移方式非常简单,主要的工作是存储的备份和主机服务器的切换;缺点是新数据库和原来数据库要保持一致,也即是升级更新完硬件设备之后,数据软件还是原来的版本,只能达到事倍功半的效果。
  2.3 RMAN数据迁移
  RMAN(Recovery Manager)是一种用于备份(backup)、还原(restore)和恢复(recover)数据库的Oracle工具。RMAN只能用于ORACLE8或更高的版本中。在整个数据迁移过程中,RMAN能够在数据迁移前对数据库的数据文件、归档文件、表空间文件和归档文件等进行备份,从而实现即使数据迁移失败也能够保证二次实现数据迁移。由于RMAN独特的快捷性和便利性,使得9i及以上版本的oracle数据库通过其备份和恢复已经成为一种常态。利用RMAN做数据迁移的优点是数据迁移可以跨平台,但是由于操作的复杂性,一般很少在实际操作过程中使用Rman跨平台进行数据迁移。同样,利用RMAN做数据迁移可以跨版本,但只能从低版本到高版本的跨越,无法实现从高版本到低版本进行数据迁移。RMAN是一把双刃剑,能够在同平台、同版本上实现快速的数据迁移,但其缺点也很明显,在数据迁移过程中,其过程无法控制,尤其是其备份的数据无法通过其他软件进行恢复,只能通过RMAN进行恢复。
  2.4 Dataguard数据迁移
  DataGuard是Oracle数据库自带的一种数据同步功能,其他类型的数据库也有同样的功能,其基本原理是通过日志文件在两个数据库端进行同步传输,目标端数据库应用传输过来的日志文件保持和源端数据库的数据一致性。DataGuard不仅仅适用于数据迁移,也是一种可以提供数据库容灾、故障恢复的方法,可以实现在数据库发生灾难性故障时,实现数据库的快速的切换和恢复。利用DataGuard做数据迁移和容灾备份的优点是速度快、时间短,缺点是由于其快递切换性,原数据的主机和存储必须是双份的,以保证其特性。
  3 大数据时代数据迁移的关键点
  进入大数据时代,相比于传统意义上的数据迁移,其数据量大、数据维度多、数据安全要求高等特点成为阻碍大数据时代数据迁移的关键难点。
  3.1 數据监控
  在数据迁移过程中对整个迁移过程的各个任务进行全方位的监控,建立数据迁移监控平台,可以及时监控数据迁移过程中的数据质量变化、完成作业数、正在运行作业数等数据,并结合服务器的CPU、内存、IO等运行时状态数据,提供从服务器状态、到数据状态变化、ETL作业状态的全方位监控。针对数据迁移过程中存在的异常情况,统一在监控平台上展示,可选择时段范围和任务类型执行筛选异常作业展示,显示异常作业的统计信息,显示各异常作业的当前状态信息,包括显示作业类型、作业名称、执行时间、进度条、是否重试、完成状态等信息。
  3.2 数据安全
  在数据迁移过程中,数据的安全问题不可忽视,一旦数据被大规模汇集后泄露,将造成非常严重影响,因此需要对数据迁移的各环节进行科学分析,制定严密、可落地实施的数据安全保护策略,实现“以数据为中心的全生命周期的数据安全”。综合实现攻击者进不去、非授权者重要信息拿不到、窃取敏感信息看不懂、系统和信息窜改不了、系统工作瘫不成和攻击行为懒不掉的防护效果[5]。数据迁移过程中面对的安全风险主要是数据泄露和数据损坏。其中,以数据泄露最为严重。数据泄露有以下几种渠道:物理存储介质丢失;通过操作系统管理员身份拷贝数据库存储文件;通过数据库管理员身份导出数据库中数据表;数据跨安全域传输时被拦截或收集;数据备份同步时被拦截或收集;非授权业务系统查询数据;合法业务系统“蚂蚁搬家”式收集数据。   为了保证在数据迁移过程中数据的存储和传输安全,应做到数据分级存储,对不同级别的数据和不同的管理员授予不同的权限,对数据处理区和数据生产区在不干扰生产的情况下进行物理隔离,最大限度减小了全量数据的暴露面。同时,在传输过程中,对于生产数据库区,配合加密机等专用设备还对数据存储介质透明加密或对数据表关键字段进行加密,实现存储介质和导出存储文件脱离对应的环境无法解密数据。数据加密有效防止物理存储介质丢失和通过操作系统管理员身份拷贝数据库存储文件。
  4 云平台数据中心
  各个信息系统之所以会产生数据迁移的业务,最主要的原因是即便是同一行业,其各个信息系统的数据标准也不统一,无法形成大规模的云平台数据中心,隨着时间的推移,系统的软硬件更新换代只能通过新设备、新软件替换,原始数据只能迁移到新的环境中。传统意义上的大数据中心,存储各个业务系统的数据,并不提供计算的资源,而随着云平台技术的逐渐成熟,兼容计算的云平台数据中心已经成为各行各业整合信息系统数据资源,提高社会凝聚力的的必要条件。云平台数据中心结构图1所示。
  在云平台数据中心的结构中,各个行业信息系统的数据通过统一的数据标准进行数据的汇集,通过汇集链路,将数据汇集到云平台数据中心。针对不同的行业的数据性质,一些行业数据具有相对的保密性,这些保密性数据在进行汇集时,需要将数据包进行加密,并且通过加密的链路进行汇集,在云平台数据中心进行解密后存储[6,7]。
  建设云平台数据中心的关键点在于前期的数据迁移整合和后期的计算资源的运维,而前期的数据迁移整合的最关键技术是大数据时代各个行业各个信息系统数据标准的不统一。由于各个行业系信息系统的数据格式和数据结构纷繁复杂,海量的结构化数据和非结构化数据,这些多元的异构化数据是整个数据汇集的难点,耗费的精力和时间成本也是最大。如何做到各类数据的汇集与融合,成为必须解决的难题。
  5 对未来的展望
  未来,各行各业对数据越来越重视,数据也变成了一种资产的体现,但数据本身无法自动产生相应的价值,要想使数据产生应有的价值,应在云计算的基础上,结合现有的人工智能和大数据技术,使数据成为各行各业的强有力帮手。数据也是一把双刃剑,对各行各业而言,依靠数据的支持,可以突破传统,但也不能过分依赖数据。同时,随着法律法规的健全,保护公民隐私信息成为一种必然的趋势,对数据的安全保护的力度一定会越来越大,未来,数据安全必然国家安全信息保护工作的重点。
  参考文献
  [1] 数据迁移[EB/OL].百度百科,2018-10-20.
  [2] 迁移.数据中心迁移时的十项须知[J].网络与信息,2011(06):36.
  [3] 段卫国,李俊春.Oracle数据库数据迁移技术研究[J].信息技术,2015(08):35-39.
  [4] 张梦影.ORACLE到POSTGRES的数据库迁移[D].上海:上海交通大学,2014.
  [5] GB/T 22239-2019,信息安全技术网络安全等级保护基本要求[S].北京:中国标准出版社,2019.
  [6] 冯朝胜,秦志光,袁丁.云数据安全存储技术[J].计算机学报,2015(01):150-163.
  [7] 范伟.云计算及其安全问题探讨[J].保密科学技术,2011(10):56-59.
  Research on Key Technologies of  Data Migration in the Era of  Big Data
  ZHAO Ya-qiang1, WANG Yong-lun2, GE Li-jun3
  (1.First Research Institute of  the Ministry of  Public Security, Beijing  100048;
  2.Population Management Team of  Tianjin Public Security Bureau, Tianjin  300384;
  3.Beijing Institute of  Micro Technology, Beijing  100006)
  Abstract:Because of the complexity and multi dimension of information data in all walks of life, data migration becomes the difficulty of information system updating. With the development of big data and cloud computing, cloud platform data center has become a must choice for information systems of all walks of life, it not only avoids the waste of resources, but also greatly reduces the future data migration work, laying the foundation for the future intelligent and intelligent construction.
  Key words:data migration; storage; data security; encryption
转载注明来源:https://www.xzbu.com/8/view-15141641.htm