基于全链路的交互式数据探索技术研究
来源:用户上传
作者:
[摘 要]在大数据的数据价值挖掘方面,交互式数据探索发挥着重要作用。基于此,本文在分析全链路数据管理和交互式数据探索概念的基础上,结合电网数据管理平台建设需求,对电网数据全链路管理方案和交互式数据探索技术措施进行探讨,发现技术应用能够为电网数据应用管理提供支持。
[关键词]大数据;全链路;交互式数据探索
doi:10.3969/j.issn.1673 - 0194.2020.02.071
[中图分类号]TP311.13 [文献标识码]A [文章编号]1673-0194(2020)02-0-02
0 引 言
在电网快速发展的过程中,电网管理模式也不断发生变化。面对海量数据信息,需要加强大数据技术的运用,通过全链路管理获得全面、精准的数据,并通过加强交互式数据探索完成数据信息实时查询,确保电网业务高效开展。因此,还应加强基于全链路的交互式数据探索技术研究,以便推动电网数据管理平台建设发展,为电网稳定运行提供保障。
1 全链路数据管理与交互式数据探索分析
面对大数据,实施全链路数据管理能够实现海量数据采集、运算处理、存储、回流和可视化展示,实现信息全过程监控管理。通过对行业大数据处理流程进行总结分析,可以实现各基础流程对接,使上层在数据应用中屏蔽底层数据传输、环境配置等细节。因此在数据开发中,采用全链路数据开发工具能够使人员从烦琐的数据操作任务中解放出来,专注于业务开发。在数据管理期间,则会不断产生新数据,任何数据改动可能引发连串反应。应用全链路数据管理技术,可以完成从产生到被消费的元数据记录,理清新数据与原有数据的关系,完成现有数据改动可能造成的影响和风险评估,为管理决策制定提供依据。在用户输入不明确查询信息时,通过交互式数据探索能够采取列举样例、机器学习等方式与用户交互,在获得反馈后逐步明确用户真实意图,为用户提供最匹配查詢结果或语句。在全链路数据管理支持下,交互式数据探索能够开展特别交互过程,通过不断更新数据分析和探索为在线查询提供支持,在数据空间中帮助用户表达出形式化的探索查询序列。根据用户目标、兴趣数据,通过与记录元数据的数据库进行交互,可以显示用户感兴趣数据。
2 基于全链路的交互式数据探索技术应用分析
2.1 项目研究背景与意义
现阶段,电网应用数据主要来自营销系统、调度运行自动化系统等各类系统。而电网数据类型复杂,除了结构化数据,还包含大量半结构化、非结构化数据。在非结构化数据以及实时数据等尚未实现统一接入与分析的情况下,电网采集数据源单一。出现这一情况,主要是由于电网建设的数据集成平台缺乏数据计算能力,难以对海量异构数据进行挖掘分析。针对大数据表关联、SQL聚合统计等场景,呈现出平台计算缓慢、性能差等问题,无法满足过载信息计算、电压计算等数据应用需求。而在电网业务改革中,需要完成跨专业业务数据的分析应用,实现各专业数据的共享和融合。由各业务部门自行搭建数据分析环境,将造成数据资源分散、资源重复建设等问题。完成统一的全链路数据管理平台建设,加快交互式数据探索技术研发,可以实现数据供给侧改革升级,为各业务部门提供强有力的多元化数据分析计算技术支撑。运用技术实现数据潜在价值挖掘,为产业布局决策制定提供依据,同时实现业务数据标准化管控,从而实现数据共享,顺利解决跨业务域、跨系统的业务数据贯通问题。
2.2 全链路数据管理方案
结合电网数据管理需求,在搭建数据管理平台实现电网大数据集成、存储、计算及分析时,需要制订科学的全链路数据管理方案。在分布式环境下,需要将大数据处理基本流程抽象提炼成多个功能模块,分别进行数据集成、实时计算和提供可视化工作流,并借助检索分析技术完成数据应用敏捷开发,使多元化业务需求得到满足。大数据全生命周期则是大数据链条,可以得到全链路管理流程,包含数据接入、存储、处理和可视化管理4个环节。
2.2.1 在数据接入上
为实现非结构化数据、实时数据等数据接入,需要采用Mysql、Oracle等主流关系数据库进行数据存储,实现文本数据、日志数据、语音视频等非结构化数据的离线导入。针对传感器、监控设备产生的实时数据,需要采用Flume、Tube等工具接入。平台面对庞大信息量导入需求,需要采用高强度数据压缩及加密传输技术,为多渠道数据接入提供支持。
2.2.2 在数据存储上
加强多类型存储支持技术应用,包括时序数据库、内存数据库、块存储、对象存储系统等多种。为保证数据资产安全,需要实现存储系统高可靠容灾设计,在部分节点崩溃时能够从备份中找回数据。电网数据量增长迅速,所以存储系统需要完成从G向P级的动态扩容,保证平台数据供给服务的稳定性。
2.2.3 在数据处理上
采用离线批处理计算技术,具有先存储后计算、数据准确性高等特点,能够满足数仓建设中的数据清洗、转换、汇集、主题提取等需求。在平台建设中,需要采用MapReduce、Hive、Pig等批处理工具,建立Spark分布式内存计算框架,以便在内存中实现数据集快速、多次迭代计算,为复杂数据挖掘算法和图计算算法实现提供支持。在电网作业调度中,采用流处理引擎能够实现状态监测与电能计量等数据构成的大规模数据流的实时运算,完成毫秒级计算场景构建,为用户行为分析、数据实时推荐功能实现提供支持,满足小时、天、月级周期作业执行等高级应用的数据需求。
2.2.4 在数据可视化管理上
采用可视化工作流开发IDE,利用简单Web式拖拽操作进行工作流任务开发、屏蔽环境配置等细节,使人员专注于业务问题。对离线数据导入导出、在线实时数据接入等大数据基本流程进行模块化封装,并实现配置集成,提供丰富的处理器。 2.3 交互式数据探索分析
电网数据管理平台数据应用的实现,建立在数据检索技术应用基础上。伴随着电网数据量的不断增加,平台需要完成分布式數据库建设,以便实现数据库在线扩容,使平台性能得到线性扩展。对数据访问逻辑进行简化,采用内核级支持的数据库分库分表技术,使数据逻辑对业务透明化。实现冷热数据分治,使上层业务对底层存储介质差异进行屏蔽,完成统一数据库视图提供,使服务器的硬件成本得到降低。在大数据技术不断演进背景下,可以采用多维分析引擎技术,将数据列存储技术和极速查询优化技术结合在一起,实现海量数据的高性能实时多维分析。在数据查询方面,应用交互式数据探究技术提供全文检索服务,可以在千亿数据规模下实现毫秒级高性能检索分析,满足分布式多用户数据检索需求。在平台交互式数据探索功能实现上,需要采用SQL分布式分析引擎技术,通过开源分布式分析引擎提供基于Hbase存储的数据预建模和百亿行规模SQL数据分析能力。在技术实现过程中,关键在于完成分布式数据架构建立,以便利用标准的SQL语句进行数据查询,完成数据实时计算和融合。在此基础上,实现电网业务系统日志和数据聚合分析,在无须提前处理的情况下快速完成数据分析与查询。采用维度建模方式,SQL引擎能够实现数据多维分析和交互式探索,提供一站式数据分析和探索平台。实际采用SQL引擎技术进行数据查询体系架构建立,用户可以通过数据库查询接口进行SQL查询。根据查询请求,数据管理平台可以与数据库进行数据交互,并通过查询日志确定用户之前的查询记录。在日志查询中,利用推荐引擎推荐查询信息,与数据库查询得到的数据一同返回用户,轻松完成数据挖掘与分析,降低平台数据搜索的编程技术门槛。在利用SQL搜索引擎从数据库进行数据调取时,需要采用Hadoop开源架构,为SQL 2003核心扩展的分布式关系数据库兼容技术应用提供支持。采用能够实现完全兼容的PostgreSQL语言,能够为分布式关系数据库主键、函数、约束、跨节点、触发器等语法提供支持,因此可以在数据规模达到百T级的OLTP和OLAP数据库中得到应用。针对千亿级数据,采用SQL语言进行上卷、下钻等实时分析操作,达到毫秒级的处理速率,完成实时数据的分析和查询,因此能够为电网运营决策制定提供依据。
2.4 平台技术的应用效果
应用平台多渠道数据集成功能,能够解决电网数据来源单一问题,促使电网数据供给能力得到提高。采用全链路数据管理平台,能够凭借强大数据计算能力实现大数据批处理与流处理,满足各种电网业务数据应用需求。在实际应用平台开展业务时,采用数据分析引擎能够跨系统实现电网数据采集、存储、处理和分析,并使数据得到可视化显示。通过模块化封装与集成,可以实现数据信息的标准化管控,完成数据应用敏捷开发。在实时数据采集处理方面,采用准实时和实时计算框架Spark和Storm,能够使数据得到及时拓扑计算、加载和启动,确保业务数据得到在线更新。在生产业务数据管理中,能够对海量智能电表数据进行实时处理,并通过故障预警满足设备维修管理要求,继而为电网业务开展提供强有力的支撑。
3 结 语
电网数据规模不断扩大的背景下,还要引入基于全链路数据管理与交互式数据探索技术完成大数据管理平台建立,以便使电网业务数据能够得到实时处理和共享管理,使各项业务数据应用需求得到满足。实际在平台建立时,需要采用实时计算框架保证数据得到及时更新,以便保证数据交互探索效果,继而为业务开展提供需要的数据信息。
主要参考文献
[1]王蒙湘,李芳芳,于戈.交互式数据探索框架的特征自适应技术[J].东北大学学报:自然科学版,2018(12).
[2]林洪文,周亚峰,周安,等.基于“互联网+”和“大数据”的输电交互式巡检安全质量管控体系的探索和实践[J].电子技术与软件工程,2018(23).
[3]周彧,李晖,梁青青,等.FastNavi:巡天数据的交互式探索系统[J].计算机工程与应用,2018(1).
转载注明来源:https://www.xzbu.com/3/view-15116699.htm