您好, 访客   登录/注册

一次自动气象站串口服务器故障处理过程的探讨

来源:用户上传      作者:

  摘 要:以一次自动气象站串口服务器故障处理过程为例,探讨优化自动站故障排查方法及日常应急方法。
  关键词:新型自动站;串口服务器;故障排查
  中图分类号:S163+.7       文献标识码:A
  DOI:10.19754/j.nyyjs.20190830065
   自动气象站是我国基层气象台站广泛使用的气象仪器,能够实现地面气象要素数据的自动化采集与上传。其主要工作原理就是将各类需要采集的气象要素数据,通过各种类型的传感器转化为电信号传输至主采集器,然后再使用电子计算机与采集器进行通讯,获取数据后存放在本地电子计算机硬盘之中,再通过网络的方式将数据传输至上级气象部门。
  电子计算机与主采集器之间的通讯主要使用串口通信的方式来实现,该类方式在各种型号的自动气象站中应用比较广泛,而串口通信方式存在传输速率小、传输距离近、以及非多点传输的缺点。如果在观测场中的主采集器和业务用计算机之间的距离过长的话,在传输的过程中会出现传输速度慢、信号衰减等诸多问题。而以太网通讯方式则具有传输速度快,距离远等优点,可以有效地解决传输问题。
  因此,目前出产的新型自动气象站将传统的RS-232 通讯方式转变为TCP/IP 通讯方式,局域网中的计算机只要安装虚拟串口软件,就可以和自动站采集器进行通讯。这一种通讯方式需要在计算机与采集器之间新增加1个串口联网服务器 (简称 “串口服务器”)设备。串口服务器在新型自动气象站的应用,减少了大量工作量(安装、布线等),室内、外均采用光纤传输,有效隔离了室内、外设备的直接电路连接,尤其是在雷雨季节杜绝了雷电的相互感应。
  目前,怀柔国家气象观测站使用DZZ5型新型自动站,并且使用串口服务器,台站人员2015年才开始接触串口服务器,对其工作原理以及故障的排除思路还不是很清晰。自动站故障的迅速诊断、排除及故障期间数据的处理是自动站业务的重要组成部分,是每位基层台站业务人员都应掌握的技能。本文通过怀柔国家气象观测站一次自动站串口服务器故障的诊断、排除及处理过程的介绍,给出了此类故障排查的思路及建议,供业务人员在实践中参考。
  1 故障现象
  2016年8月18日10:13,怀柔站工作人员发现软件无法正常采集数据,显示采集失败。同时软件报警,无法形成z文件。工作人员考虑有可能是采集次数过多,占用计算机内存太多,因此对地面综合观测业务软件进行重启,后问题没有得到解决,随后又对计算机进行重启,后发现软件仍然无法正常采集数据,显示采集失败。
  2 故障的诊断以及处理
  此时工作人员考虑到是否为硬件问题,本着排除硬件故障的思路,进行了如下处理过程。
  2.1 排查主采集器硬件故障
  因为故障现象为全部要素数据无法采集,而不是单个要素或者地温等分采集器系统负责的某一类要素缺测,第一时间考虑为主采集器出现故障。根据过往经验,以前也出现过采集器死机的现象,因此工作人员首先到观测场打开主采集器机箱查看采集器状态,发现“RUN” 灯正常闪烁,“CF”灯常亮,使用万用表测量采集器供电电压为13.6V。到这里的检查能够判断出当前采集器的供电状态是正常的,而且从信号灯情况来看,采集器也没有死机,存贮卡也在正常工作。故当时的判断是主采集器运行正常,下一步进行其他方面的故障排查。
  2.2 通讯系统故障排查
  上一步的检查结果表明采集器不存在问题,因此工作人员转而判断是通讯系统出现了故障。随后工作人員从主采集器位置走到串口服务器位置,打开串口服务器机箱,经过查看发现各个工作指示灯均正常,故判断主采、串口服务器供电均正常。 进行到这一步的检查,当时工作人员判断主采集器运行正常,串口服务器也运行正常,考虑下一步进行通讯线路故障排查。
  2.3 通讯线路故障排查
  工作人员回到值班室,开始检查串口服务器与计算机之间的通讯线路是否连接正常。首先检查光电转换器状态,发现各个指示灯闪烁正常,因此判断光纤接口、网线接口均连接正常。随后打开虚拟串口驱动软件,点击“search”后,发现窗口能够正常显示出串口服务器的IP地址,故判断计算机与串口服务器之间通讯正常,并且在同一个局域网内。进行到这一步骤,工作人员综合判断通讯线路正常,下一步考虑排查采集器硬件故障,或者采集软件故障。
  2.4 计算机与主采集器间的交互排查
  工作人员打开业务软件维护终端,键入“DMGD”命令,后发现主采集器能够正常返回分钟数据,这是表明计算机和采集器之间的通讯是正常的。但是观测业务软件主界面仍然显示无数据,并且软件仍然持续报警无法生成z文件。打开历史数据下载,选择下载缺测时段分钟数据时,发现也能够正常下载,但就是实时数据采集无法完成。结合之前的判断,此时采集器、串口服务器均正常工作。当时工作人员考虑是否是本站观测业务软件参数是否出现问题,同时怀疑是计算机操作系统出现了问题,工作人员开始准备启动备份计算机。
  2.5 问题发现
  在检查了观测业务软件参数设置没有问题后,工作人员一边准备启用备份计算机,一边通过查看计算机同采集器之间的实时通讯状态,仔细查看采集器返回的分钟数据命令,工作人员发现返回的分钟数据时间与计算机的时间相差1min,因此判断是由于采集器时间与计算机时间不一致,造成数据无法正常采集。进行到这里的排查,初步发现了导致软件无法采集数据的问题所在,针对这一发现,开始进行故障排除。
  2.6 工作人员进行采集器的时间修改操作
  发现无论是在软件主界面点击右键进行将时间下载到采集器的操作,还是在业务观测软件终端维护直接发送修改时间命令,采集器端均返回操作失败。到这一步的排查,当时的工作人员考虑是采集器故障,改为修改计算机时间,将计算机时间修改至与采集器时间一致后,发现软件就能够正常采集数据了。此时能够判断出故障原因就是计算机时间与采集器时间不一致。但目前采用被动修改计算机系统时间的方式保持与集器时间一致,可以临时解决数据采集,但计算机无法主动同步采集器时间,导致采集器时间与市局授时服务器并不一致,也不符合业务规定。此时工作人员只能与市局取得联系,将情况进行上报。   2.7 问题解决
  工作人员将故障情况上报至市局相关专家后得到建议,将原先使用的串口服务器第1路串口通道切换至第2路串口通道,并完成虚拟串口驱动的重新配置以及软件通信参数的设置后,重新启动软件后数据采集正常,至此,故障排除。
  3 结语
  此次虽然顺利处理排除了串口服务器故障,但回顾整个的处理过程,发现还有很多步骤可以进行相应优化以节省排故时间。导致自动站全部数据缺测的原因很多,在进行故障排查时应综合考虑检查采集器、串口服务器硬件故障、供电系统是否正常,通讯是否畅通、软件参数是否出现问题等。如果是单个要素缺测时,则应从传感器端开始排查,直至采集器端。其中如果涉及地温数据的,还应当考虑地温分采集器的运行状况,以及CAN总线通讯方面的排查。台站人员开始接触串口服务器的时间尚短,对其工作原理以及故障的排除思路还不是很清晰。此次故障排除过程之后的几点思考。
  目前台站使用的串口服务器稳定性欠佳:此次故障虽然已经得到了有效解决,但是串口服务器的第1路串口已经无法使用,根据当前观测业务的发展,考虑未来很多设备都不与采集器进行挂接,而是要直接连接在串口服务器中(降水现象仪、云高仪、雪深自动观测仪、光电式日照传感器等),存在很大隐患。因此建议更换该批次型号的设备,或者由原来的8路串口增加至16路,以适应不断增加的自动化设备;
  气象站观测人员在值班期间要对设备工作状态进行密切监视,新型自动站出现故障时,因硬件故障导致整套自动站无法正常工作, 或因通讯故障导致数据无法返回时,且在1h内无法恢复时,及时启用备份自动站上传数据,以保证数据上传的时效性,后对新型自动站进行故障排查。 观测人员除了一些简单基本程序式的自动气象站故障排查方法以外,要在实际工作当中不断地总结经验, 优化日常应急方法,提高自身的技术水平和业务水平,以适应气象装备的自动化和科技化;
  串口服务器如果出现某一路串口故障时,如果仅仅通过查看指示灯的方法,很难发现问题。本站的故障事例表明,串口服务器串口通道故障会导致无法校对采集器時间,进而影响数据的采集。紧急情况下,可以通过调整串口通道的方法来解决;
  合理利用综合观测业务软件当中的“通讯查看”功能,可以更准确的监测和分析计算机当前和采集器的交互状态,及时从发送与返回的命令中分析出问题的所在;
  建议台站增加关键设备的备份。当前的业务规定要求各个传感器都有备份仪器,但一些大额的设备并没有备份,比如此次故障事例中的串口服务器,一旦出现台站无法解决的故障,只能更换设备时,台站没有备份,将是十分被动的。
  
  参考文献
  [1] 田光普,张向荣,李崇福,等.串口服务器在自动气象站的应用[J].陕西气象,2016(3):40-42.
转载注明来源:https://www.xzbu.com/1/view-15016486.htm