您好, 访客   登录/注册

基于数据湖的高校大数据管理体系和处理机制研究

来源:用户上传      作者:

  摘  要: 针对高校本身业务系统带来的不同结构海量数据的存储管理和高效利用问题,通过比较新兴的数据湖技术和传统的数据仓库的区别,构建了基于数据湖的高校数据管理体系和数据处理机制,为高校的数据治理提供了数据层的存储支持,为使用机器学习方法进行大数据分析提供了非结构化数据来源。
  关键词: 高校大数据; 数据湖; 数据管理体系; 数据处理机制; 机器学习
  Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.
  Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning
  0 引言
  物联网、大数据、云计算、移动计算、人工智能正越来越多地进入人们的日常工作和生活中,这些技术潜移默化地影响着人们的生活和工作方式,也对高校的信息化建设提出了更高的要求。高校信息化建设过程中各种网络设备和应用系统产生了大量的数据,“以数据为核心资产、以数据驱动业务革新”的发展方式已成为高校迈进更高层次的必然趋势。对于传统的来自事务系统、运营数据库和业务应用的关系型数据,数据仓库可以满足高校数据治理和存储的要求,但是随着信息化建设的进展,来自物联网设备、网站、移动应用程序、社交媒体和企业应用程序的非关系型数据越来越多,很难存储在数据仓库中,而且随着人工智能在高校中的发展和应用,人工智能需要处理的多数是这些非关系型数据,对数据治理和存储提出了更高的要求。近年出现的数据湖技术能同时满足关系型数据和非关系型数据的存储,同时在性价比、数据质量、适用用户类型、数据分析领域、灵活性等方面也优于数据仓库。本文探讨了如何利用数据湖技术构建高校数据管理机制和数据处理机制。
  1 数据湖的概念
  数据湖是一个集中式存储库,允许用户以任意规模存储所有结构化和非结构化数据。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析-从控制面板和可视化,到大数据处理、实时分析和机器学习,以辅助管理者做出更好的决策。
  对于高校的应用,对传统业务系统之外的数据,比如来自物联网、移动设备、网络日志、视频监控等的数据——多数是半结构化或者非结构化的,而人工智能技术所擅长处理的正是这些类型的数据,机器学习和深度学习算法可以对这些数据进行建模、训练和验证,得出数据之间的关联性或者因果推断关系来建立模型进行分析和预测,为高校管理和决策提供数据支持。
  2 数据湖与数据仓库
  数据仓库和数据湖可以满足不同组织的不同需求和使用案例。
  数据仓库是一个优化的数据库,用于分析来自事务系统和业务应用程序的关系型数据。事先定义数据结构和Schema,以优化快速SQL查询,其结果通常用于报告和分析。经过清理、丰富和转换的数据可以充当用户可信任的“单一信息源”。
  数据湖有所不同,它存储来自业务应用程序的关系型数据,以及来自移动应用程序、物联网设备和社交媒体的非关系型数据。捕获数据时,不事先定义数据结构或Schema。这意味着用户可以存储所有数据,而不需要精心设计也无需知道将来用户可能的数据需求。数据湖中存储的数据可以包括结构化数据(关系数据库)、半结构化数据(CSV、XML、JSON的日志)、非结构化数据(电子邮件、文档、PDF)、二进制数据(图像、音频、视频)[2]。用户可以对数据使用不同类型的操作(如 SQL 查詢、大数据分析、全文搜索、实时分析和机器学习)来获得分析结果。
  用数据湖替代数据仓库作为高校数据存储的技术手段,是因为当前高校所拥有的和希望分析的数据类型不再只局限于关系型数据。表1列出了数据湖和数据仓库在数据来源、数据存储结构等方面的区别[1,3,4]。
  组织构建数据湖和分析平台时,需要考虑以下的关键功能。
  ⑴ 数据移动
  数据湖允许用户导入任何数量的实时数据。用户可以从多个来源收集数据,并以其原始形式将其移入到数据湖中。此过程允许用户扩展到任何规模的数据,同时节省定义数据结构、Schema和转换的时间。
  ⑵ 安全地存储和编目数据
  数据湖允许用户存储关系数据(例如,来自业务应用程序的运营数据库和数据)和非关系数据(例如,来自移动应用程序、物联网设备和社交媒体的运营数据库和数据)。它们还使用户能够通过对数据进行爬网、编目和建立索引来了解湖中的数据。最后,必须保护数据以确保用户的数据资产受到保护。   ⑶ 分析
  数据湖允许组织中的各种角色(如数据科学家、数据开发人员和业务分析师)通过各自选择的分析工具和框架来访问数据。这包括Apache Hadoop、Presto和Apache Spark等开源框架,以及数据仓库和商业智能供应商提供的商业产品。数据湖允许用户做运行分析,而无需将数据移至单独的分析系统。
  ⑷ 机器学习
  数据湖将允许组织生成不同类型的见解,包括报告历史数据以及进行机器学习(构建模型以预测可能的结果),并建议一系列规定的行动以实现最佳结果。
  ⑸ 数据湖的价值
  能够在更短的时间内从更多来源利用更多数据,并使用户能够以不同方式协同处理和分析数据,从而做出更好、更快的决策。
  ⑹ 数据湖的挑战
  数据湖架构的主要挑战是存储原始数据而不监督内容。对于使数据可用的数据湖,它需要有定义的机制来编目和保护数据。没有这些元素,就无法找到或信任数据,从而导致出现“数据沼泽”。 满足更广泛受众的需求需要数据湖具有管理、语义一致性和访问控制。
  3 基于数据湖的高校数据管理机制
  基于数据湖的高校数据管理机制包括两个方面:
  3.1 高校数据管理体系
  高校数据管理包括组织、制度和技术三个方面,组织和制度是保障技术方案实施的基础。这三者之间的关系如图2所示[5]。
  3.2 高校数据处理机制
  基于数据湖的高校数据体系结构参考了文献[6]的分层结构,从下到上分为多源异构数据、数据摄取层、数据存储层、数据转换层和交互应用层,如表2所示。
  表2中的分层结构很直观地说明了数据从来源到摄取、存储、转换、应用的层次关系。在应用层,举例说明数据湖和数据仓库的区别[4]:
  以教学质量评价的应用为例,原始数据如下。
  王小双同学:我喜欢英语老师,风趣幽默,认真负责。
  李大刚同学:很怕高等数学老師,要求严厉,不苟言笑。
  数据仓库对数据的存储和管理是写时模式,即根据下游要求,加工转化数据源的数据原始格式为特定的数据结构,再进行存储和管理。
  其数据的存储格式如下:
  [评价学生 课程名称 任课教师 教学特点 王小双 英语 张明 风趣幽默 高等数学 李强 严厉 ]
  数据湖的数据存储和管理是读时模式,即根据数据源的数据原始格式进行存储和管理。待下游需求,提取数据时,根据需要进行结构化处理。下游的不同需求返回不同的数据:
   案例一:按照学生喜好分析
  [评价学生 喜欢的课程 原因 王小双 英语 风趣幽默 ]
   案例二:按照教师分析
  [评价教师 课程名称 喜欢此课程的学生数 张明 英语 42 李强 高等数学 37 ]
  4 结束语
  本文探讨了数据湖技术在高校大数据管理体系和处理机制中的应用。通过在一所高校中的实际应用,数据湖技术实现了结构性数据和非结构性数据的存储,为数据治理和在其基础上的开发应用提供了一致性和异构数据的来源保障。需要进一步研究的是数据湖技术由于其无监督,安全性较差。同时满足更广泛受众的需求需要数据湖具有管理、语义一致性和访问控制这些功能。
  参考文献(References):
  [1] 什么是数据湖?https://aws.amazon.com/cn/big-data/datalakes-and-analytics/what-is-a-data-lake/
  [2] 丁强.安防云存储中数据湖架构及相关数据治理体系[J].中国公共安全,2018.7:130-134
  [3] 谭景信,刘玉龙,李慧娟.虚拟化模型驱动的分布式数据湖构建方法研究[J].计算机科学与探索,2019.13(9):1493-1503
  [4] 刘子龙.数据湖——现代化的数据存储方式[J].电子测试,2019.18:61-62
  [5] 胡军军,谢晓军,石彦彬,喻琦.电信运营商数据湖技术实施策略[J].电信科学,2019.35(2):84-94
  [6] 陈永南,许桂明,张新建.一种基于数据湖的大数据处理机制研究[J].计算机与数字工程,2019.47(10):2540-2545
转载注明来源:https://www.xzbu.com/8/view-15229173.htm