基于分布式文件系统电力大数据存储实现

> 中国论文网 >
政治论文 >
基于分布式文件系统电力大数据存储实现

基于分布式文件系统电力大数据存储实现

来源:用户上传作者:陈行滨　王周　郑飘飘　林德威　刘青

　　摘要：基于Hadoop存储架构设计了电网非结构化数据管理平台，主要包括存储分析与搜索读取2大模块，整合HDFS、Hbase等存储设备，利用HDFS实现海量数据的快速读写，采用基于ZooKeeper及Solr搭建的开源分布式搜索引擎SolrCloud实现数据检索，提供了高效便捷的智能化管理手段。
　　关键词：电网管理;Hadoop存储;分布式;数据检索
　　中图分类号：TP311.13
　　文献标识码：B文章编号：1001-5922（2022）06-0172-04
　　Realization of power big data storage based on distributed file system
　　CHEN Xingbin WANG Zhou ZHENG Piaopiao LIN Dewei LIU Qing
　　（1. State Grid Fujian Electric Power Co.， Ltd.， Fuzhou 350000， China; 2. Information and Telecommunication Branch， State Grid Fujian Electric Power Co.， Ltd.， Fuzhou 350000， China; 3. State grid Xintong Yili Technology Co.， Ltd.， Fuzhou 350000， China
　　）
　　Abstract：This paper designs an unstructured data management platform for power grids based on the Hadoop storage architecture. It mainly includes two modules： storage analysis and search and reading. It integrates storage devices such as HDFS and Hbase. It uses HDFS to achieve rapid reading and writing of massive data and adopts an open-source distributed search engine SolrCloud built by ZooKeeper and Solr to implement data retrieval， providing an effective and convenient method for smart management.
　　Key words：power grid management; Hadoop storage; distributed; data retrieval
　　力行业的非结构化数据存储的内容包括图像、视频、报表、网页等不同格式，其中70%以上源自人与人之间的协作，可以说是以人为中心产生的数据。其中蕴含着各类经验与操作方法，是很珍贵的数据资产，如何将所有的非结构化信息加以管理是衡量企业信息化水平以及数据充分利用率的关键指标。
　　1电网非结构化数据管理
　　1.1电网非结构化数据管理现状
　　电网非结构化数据的管理包括存储、管理以及检索。由于电力行业数据增长非常快，大部分企业是采用BLOB字段进行存储，这种方式访问速度快、维护也比较简单;但是随着海量数据的增长，系统性能跟不上，数据共享也存在问题。因此，要实现电网非结构化数据的管理，必须考虑海量数据的存储方式、安全措施、备份办法以及检索机制。
　　1.2电网非结构化数据管理
　　（1）提升业务运行效率，实现数字资产管理：将非结构化数据文档的标准化、规范化统一管理;
　　（2）降低开发成本，发挥整合效应：在物理存储层面通过统一存储使各业务系统不用单独购买存储设备，降低实施成本;
　　（3）体现深度价值，助力智能决策：不仅实现非结构化数据的管理，还可以实现对数据深度挖掘与分析;而统一存储、统一管理是实现深度利用的前提[1-2]。
　　2管理需求分析
　　2.1业务需求概述
　　电网非结构化数据管理平台需要负责数据采集、存储、综合管理、发布、查阅等功能，具体描述如下：
　　（1）存储统一需求：电力企业各部门拥有多个业务应用系统，不同的数据库、不同的服务器，为提高利用率需要进行统筹管理，整合存储资源，优化系统配置;
　　（2）集中管理需求：遵循全局访问标准，以统一的方式标准实现访问与交互，提高集约化水平;
　　（3）数据分析需求：对基础数据进行再加工，分析数据之间的关联性，提供检索以及决策支持。
　　2.2关键业务流程
　　2.2.1存储流程
　　用户需要进行非结构化数据存储时，首先要通过客户端选择需要处理的文件，封装为“上传请求”发送至数据服务层，接收到请求后根据服务器状态判断是否将参数信息转发服务器代理;在负载均衡的基础上，对文件进行分片及分布处理之后形成决策结果发送至数据访问层。数据访问层结合自身需上传文件与决策信息对文件进行再次处理形成文件片;封装后传输至数据存储层，返回结果信息，完成存储流程。
　　2.2.2[STBZ]读取流程
　　主服务器根据数据访问层下载的命令分析请求消息后，将各项参数传递给服务器代理，代理会通过分析元数据来对文件位置进行定位;数据访问层将其发给数据服务层，最终合并还原为完整的文件，完成读取流程[3-4]。
　　2.3安全要求
　　（1）数据库安全：采用目前通用的大型关系型数据库，双击备份，出现异常可自动切换;采用先进的软硬件技术、模块化的程序结构，制定备份与恢复机制，提升容灾性;

nlc202206231633

转载注明来源:https://www.xzbu.com/1/view-15434415.htm

查看更多→

基于分布式文件系统电力大数据存储实现

相关文章