基于云计算的地铁大数据分析方法研究
来源:用户上传
作者:丁军
【摘要】 地铁轨道交通信息化水平随着城市轨道工程的发展而持续提升,而伴随着地铁轨道交通的持续运行,其形成的数据量规模也逐渐庞大。在此背景下,若基于传统数据处理方法展开操作,会存在成本高、管理难度大等问题,并且不利于程序的编写。对此,本文将地铁信息系统作为基本出发点,对地铁轨道交通发展需求进行分析,基于云计算平台创建出高度成熟化的轨道交通数据挖掘平台,同时展开有关于地铁轨道交通大数据的深度分析工作。
【关键词】 地铁工程 云计算 大数据 分析方法
当前,我国多数大中型城市都纷纷推行了地铁工程,总体建设运营里程正在持续增加。就地铁运营企业而言,需要做好客流分析工作,这是线网规划以及运营组织的关键前提。在当前信息技术持续发展的大背景下,地铁系统已经累积了大量的乘客出行信息,基于对地铁AFC刷卡数据的分析,能够达到资源合理配置的效果,并且可以更好地满足地铁客流的基本需求,有效缓解了供需不平衡的问题,从根本上满足了地铁客流需求。而基于云计算技术,能够为此项工作提供有效指导,所以本文重点对云计算技术展开探讨。
一、云计算介绍
在当前的地铁客流大数据分析工作中,重点围绕政策性、前沿性两大方面展开,由此探寻出客流的基本特征。相较于传统的交通数据而言,现代化的交通大数据与之存在明显的区别,在大数据特征描述时涉及到了3V、4V和5V这3方面内容。除此之外,加之交通大数据基本特性的影响,可以进一步延展出6V特征,具体为:体量巨大、处理快速、模态多样、真假共存、价值、可视化[1]。
二、大数据分析方法
(1)数据读取。基于Jave展开编程操作,在此基础上实现对原始数据集的分析,读取其中的数据结构,主要涉及到行与列的分隔符,此时能够确保数据集顺利的上传到云端数据库中,诸如“2aa2a04|/N|104.063028|30.508351|双流县|1|104.127465|30.26802|双流县|1|27459.749617”,则列分隔符为“|”,行分隔符为“/n”。(2)数据存储。基于MapReduce分布式上传功能可以实现对大数据的读取工作,以便将丰富的大数据完整的存储于云端数据之中。(3)数据清洗。基于云平台展开对数据的清洗工作,例如,对String类型的值进行转换,使其变更为Int类型,此举能够为后续的匹配计算提供良好的条件,如果列中存在一些不规则字符,则可以对其格式统一操作。将其中的无效数据筛除,以统计客流情况为例进行分析,则可以将员工卡进出站这一无效数据隔离出来,此后再对缺失部分做以自动填充处理。(4)数据分析。当完成对数据的清洗操作后,便可以展开SQL分析操作,对AFC数据记录进行全面筛选,从中获得客流情况、高峰期分布特性等多方面内容。(5)在上述的基础上,将会得到相关数据结果,对其进行存储并基于百度地图API作进一步的程序开发,以展开可视化分析。
三、云计算技术效率测试
云计算的方式具有更强的适应性,能够从根本上避免资源集中消耗的现象,而分布式的处理机制则可以创造出更为优良的数据处理效率。本次分析工作围绕阿里云计算服务大数据平台展开,将其与传统数据库展开对比分析,探寻二者在效率方面的差别。在阿里云大数据服务体系之中,可以有效地支持SQL等相关模型,其可以在极短的时间内做好相关计算任务。其中Tunnel服务发挥出重要的作用,其每天都可以满足TB/PB级的数据传输要求,这点对于历史数据的导入导出尤为适用,且吞吐量高,具有优良的可扩展水平,能够为数据的批量处理提供良好的条件。MaxCompute SQL建立在标准SQL算法的基础上,所带来的计算框架能够有效地服务于SQL计算模型,相较于常规的MapReduce模型而言,带来的执行效率得到了显著的提升,借助于在线运维以及离线任务调度等一系列丰富功能,离线调度任务量可以达到百万级别。若PC的内存为4G,同时配置有AMD处理器(其主频可以达到2.2GHz),将此作为硬件条件展开各方法对于SQL运算速度的分析工作,具体操作对象均为成都地铁AFC刷卡数据。实际结果表明,相较于常规的SQL Server数据库,基于MaxCompute所带来的运算效率明显提升,如果SQL语句复杂度较高,此时运行优势将会更为明显。在实际操作中,如果基于云MaxCompute展开首次运算,此时所需要的时间将长达4s,而相比之下SQL Server仅需1s便可以完成[3]。对此现象进行分析可得,在阿里云计算平台的作用下,将会对MaxCompute进行拆分处理,使其变为一个分布式的任务以便后续调用,但相比之下,MapReduce在初始化过程中便会耗费大量的时间,尽管SQL较为精简,但依然需要得到充足的时间支持。在上述基础上持续进行SQL运算,发现SQL Server需要的运算时间表现出了成倍增长的特性,但无论运算次数如何发生变化,MaxCompute需要的运算时间都处于相对稳定的状态。由此可以得知,在数据规模持续扩大的背景下,加之SQL复杂度的提升,基于云计算平台所需要的初始化时间明显缩短,其在整体时间中占比较低,相比于传统的数据库技术而言,通过云计算平台展开的分布式调用方法具有高度的可行性。
结束语:综上所述,当前的城市居民交通出行半径表现出明显的规律性,即普遍集中在地铁45min区域内,日常出行时间主要以15~30min居多,部分情况下將会达到30~45min。无论是工作日还是非工作日,地铁车站的人流量都相对较大,此时运营管理部门的监管工作至关重要,需要为之制定可行的疏导方案。在可视化技术的作用下,能够推相较于传统数据处理技术而言,基于云计算技术可以创造更高的效率,在运行过程中不会占用过多的计算机资源,在此背景下围绕大数据的地铁客流分析工作具有高度的现实意义。而大数据发展需要得到云计算的支持,换言之,在云计算的作用下能够提供弹性可拓展设备,以便大数据分析工作的顺利展开。
参 考 文 献
[1]殷玮川,何世伟,李玉斌,等.基于云计算的地铁大数据分析方法研究[J].铁道科学与工程学报,2018,15(11):2995-3002.
[2]朱建生,汪健雄,张军锋.基于NoSQL数据库的大数据查询技术的研究与应用[J].中国铁道科学,2014(01):135-141.
[3]蔡昌俊,姚恩建,张永生,等.基于AFC数据的城轨站间客流量分布预测[J].中国铁道科学,2015(01):126-132.
转载注明来源:https://www.xzbu.com/1/view-15143448.htm