大数据的发展及数据仓库的融合应用
来源:用户上传
作者:
摘要:进入信息化时代后,大数据技术及应用都得到了长远的发展。本文首先对大数据的发展历程进行简单介绍,揭示了数据如何完成的指数级的增长。之后,介绍了数据仓库的发展趋势,以及在当前技术环境下,数据仓库技术如何融合其他技术来为大数据应用提供解决方案,以适应不同企业的实际需求。
关键词:大数据;数据仓库;架构
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2019)06-0062-01
0 引言
自2008年被《Nature》杂志专刊提出了大数据(BigData)概念,大数据立即成为政府、学术界、实务界共同关注的焦点。大数据,用于描述信息爆炸时代下的海量信息。大数据研究主要是着眼于,分析信息内容及信息之间的联系,从而利用海量数据来完成为各种应用服务、提供更加精准的数据服务。
1 大数据发展历程
因为大数据的发展过程,最重要的着眼点是数据量的指数级的增长,以及对数据处理能力的提升,所以本文大致上将大数据的发展历程分为以下几个阶段。
(1)Megabyte到Gigabyte:20世纪70年代到80年代,数据首次达到了Gigabyte的量级,从而导致“大数据”的引入。为了良好的存储、处理数据,集成软硬件于一身的数据库专用计算机随之而生。但其专用硬件难以跟上通用计算机的发展节奏,受到的发展的限制。之后,数据库主要作为软件系统进行发展,对硬件不再有各种限制,能够很好的运行在通用的计算机上。
(2)Gigabyte到Terabyte:20世纪80年代末期,数字技术的迅猛发展直接导致数据容量越入Terabyte级别,这一数据量直接超出了单一计算机系统可处理的能力。此时,提升数据存储能力、处理能力的需求日益迫切,进而提出了数据并行化的理论,其核心思想是将数据和相关的运算分配到独立的硬件进行处理。在此理论的基础上,并行数据库得到了发展,比如磁盘共享数据库、内存共享数据库、无共享数据库。其中,无共享数据库设计在互连集群的基础上,取得了很大的成功,较为流行的产品有Teradata、Greenplum、Vertica、Netazza、AsterData。
(3)Terabyte到Petabyte:20世纪90年代末期,全球进入了互联网时代,网页数据直接达到了Petabyte级别。网页数据基本数据半结构化和无结构化的数据,这对数据库技术是个极大的挑战。对于结构化的数据并行数据库能很好的处理,但是对于无结构的数据却不能很好的支持,并且其数据处理能力处于Teragbytes级别。为了应对此问题,Google提出了GFS文件系统[1]和MapReduce编程模型,能够自动完成数据的并行化操作,进而将应用分布到服务器集群中。
(4)Petabyte到Exabyte:根据现在大数据的发展态势,不就之后将进入Exabyte级别。但是,现有的不能满足这一需求。在2011年7月,EMC发布了名为“Extracting Value From Chaos”的研究报告[2],进一步讨论的大数据的思想及价值。之后诸多科技巨头,如Oracle、Microsoft、Google、Amazon、Alibaba等都开始了大数据项目,同时,众多政府机构及学术界研究机构都进一步开始了大数据的研究工作,大数据的研究工作仍在进一步的发展。
2 数据仓库发展趋势及与大数据技术的融合
数据仓库经过多年的发展,理论技术、架构体系、解决方案、商业化的产品甚至人才储备都已很完善。所以,在大数据蓬勃发展还未形成完善的理论和技术体系时,数据库厂商在其传统数据仓库产品的基础之上,融合Hadoop技术,进一步加强数据库技术的研发,针对数据分析、数据压缩、列式数据库等技术的进行研究。Forrester提出了下一代企业级数据仓库的平台架构[3],在传统的数据源基础上,引入了来自于传感器、地理信息、社交网络等多方面的非关系型数据,通过Hadoop进行数据处理,运用数据虚拟化技术可以将不同的数据源进行整合,再利用压缩技术来管理更大规模的数据,从而进一步提供数据分析。并可以利用类似于in-memory的数据库内分析技术来处理更加复杂的应用,能够同时完成事务的分析和处理操作。而下一代的数据仓库架构的发展方向就应该是大数据和数据仓库相融合的角度。
大数据和数据仓库的产生和发展的背景及其相似,都是想利用最先进的技术来处理更多的數据、最大程度上利用数据的价值。数据库、数据仓库以及大数据根本上都是用于处理数据、挖掘数据,彼此之间是需求互补、技术互补、相互协作的关系。
目前对于大部分的企业来讲,要新开展一个大数据项目,可以从现有的数据仓库的经验入手,可以引入大部分的数据库技术。尤其是对于实现非结构化数据的处理,是非常有效的。比如,将Hadoop技术应用于对数据采集、ETL、存储、处理,开发提供给传统的数据仓库应用工具。充分利用Hadoop的数据处理优势,改变传统数据仓库单节点存储、处理的模式,将各类数据处理成结构化数据,向上提供给应用工具。
此外,传统数据仓库还可以结合Hadoop在数据管理层协作,使用传统的数据仓库工具对结构化的数据进行处理,Hadoop对非结构化数据进行处理,然后将两者处理后的数据存储至结构化数据库中,用于之后的进一步处理。数据仓库与大数据在技术层面的融合之外,数据仓库的成熟经验也应充分利用,比如数据建模、ETL、元数据管理等很多成熟的数据库经验可以利用。
虽然数据仓库技术并不是目前大数据技术的领域的引领者,但是对于大多数的中小企业,无法实现对大数据进行独立的开发与管理,从而将其融合数据仓库技术,与传统厂商合作,是比较理想的解决方案。
3 结语
近年来由于数据量的剧增,大数据领域得到了迅猛的发展。传统数据库技术厂商通过进一步完善数据仓库技术,通过技术的融合,提供出数据仓库、大数据一体化的解决方案,以适应中小企业的实际需求,从而推动大数据应用的落地。 參考文献
[1] Ghemawat S,Gobioff H,Leung S T.The Google file system[M].In: Proceedings of the nineteenth ACM symposium on Operating systems principles,New York,NY,USA,2003:29-43.
[2] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J]. Commun ACM,2008,51:107-113.
[3] Gantz J,Reinsel D.Extracting value from chaos[J].IDC iView,2011:1-12.
The Development of Big Data and the Fusion Application of Data Warehouse
YANG Lei
(Xingye Co., Ltd. Qingdao Branch, Qingdao Shandong 266000)
Abstract:After entering the information age, big data technology and applications have been developed in the long run. This article begins with a brief introduction to the development of big data and reveals how exponential growth in how data is done. After that, it introduces the development trend of data warehouse, and how the data warehouse technology integrates other technologies to provide solutions for big data applications in the current technology environment to meet the actual needs of different enterprises.
Key words:big data; data warehouse; architecture
转载注明来源:https://www.xzbu.com/8/view-15008246.htm