您好, 访客   登录/注册

网络故障排查方法

来源:用户上传      作者: 孙飞艳

  摘要:对于负责维护重要使命的网络管理人员来说,在网络环境出现故障时,及时定位故障并解决故障,迅速恢复网络运行非常重要。本文探通过OSl分层结构体系探讨网络故障检测中常用的方法和步骤。
  关键词:网络故障 OSl分层 解决 恢复
  
  随着社会越来越依赖于信息资源,作为传递信息的网络,其可靠性、稳定性和安全性也显得越来越重要。当一个网络出现故障的时候,就意味着网络要有一段时间不能使用。某些情况下,也意味着灾难的到来和巨大的经济损失。对于负责维护一个负有重要使命的网络管理人员来说,在网络环境出现故障时,及时定位故障并解决故障。迅速恢复网络运行非常重要。诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信正常为止。网络诊断可以使用包括局域网或广域网分析仪在内的多种工具、路由器诊断命令、网络管理工具和其他故障诊断工具。我们通常使用一个或多个命令收集相应的信息,在给定情况下,确定使用什么命令获取所需要的信息。
  1、网络故障分层诊断技术
  (1)物理层及其诊断:物理层是OSl分层结构体系中最基础的一层,它建立在通信媒体的基础上,实现系统和通信媒体的物理接口,为数据链路实体之间进行透明传输,为建立、保持和拆除计算机和网络之间的物理连接提供服务。物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;Modem、CSU/DSU等设备的配置及操作是否正确。确定路由器端口物理连接是否完好的最佳方法是使用show interface命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态、协议建立状态和EIA状态。
  (2)数据链路层及其诊断:数据链路层的主要任务是使网络层无须了解物理层的特征而获得可靠的传输。数据链路层为通过链路层的数据进行打包和解包、差错检测和一定的校正能力,并协调共享介质。在数据链路层交换数据之前,协议关注的是形成帧和同步设备。查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口共享同一数据链路层的封装情况。每对接口要和与其通信的其他设备有相同的封装。通过查看路由器的配置检查其封装,或者使用show命令查看相应接口的封装情况。
  (3)网络层及其诊断:网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者IGRP路由协议出现的故障。例如,对于IGRP路由选择信息只在同一自治系统号(AS)的系统之间交换数据,查看路由器配置的自治系统号的匹配情况。
  2、网络故障检测中常用的方法和步骤
  第1步:全面收集信息,并分析故障现象。请操作人员描述正常运行时的情况,并演示故障。如果可能的话,亲自去验证一下所出现的问题。看是否有正常的功能不见了,还是有异常的反应?检查一下在故障发生之前是否对该节点或是网络进行了改动。操作人员往往不会理解,改变一些看起来与网络无关的事可能会导致故障的产生,比如重新安装软件及安装新的适配卡。
  第2步:定位故障范围。一旦确认出现故障,收集所有可能的信息并分析。将故障范围缩小到一个网段或节点。基于所作的分析,判断故障是否与一个网段有关,还是局限于一个节点。缩小故障范围是解决的开始。确认故障是局限于一个节点还是某个网络设备。如果故障影响不只是一个节点,试着减少总线拓朴结构中的网段,或是重新建一个最小环型或星型拓朴结构中的网络用于故障诊断。
  第3步:故障隔离。如果故障影响整个网段,那么就通过减少可能的故障源来隔离故障。除两个节点外断开其他所有的节点。如果这两个节点能正常通讯,再增加其他节点。如这两个节点不能通讯,就要对物理层的有关部分,如电缆的接头、电缆本身或与它们相连的Hub和网卡等进行检查。其次,如果故障能被隔离至一个节点,可以更换网卡,使用好的网卡驱动程序但绝不能使用该节点现有的网络软件或配置文件,或是用一条新的电缆与网络相连。如果网络的连接没有问题,那么检查一下是否只是某一个应用有问题。使用相同的驱动器或是文件系统运行其他的应用程序。与其他节点比较配置情况,试用应用程序(同样不要使用现有的软件或配置文件)。而如果只是一名用户出现使用问题,检查涉及该节点的网络安全系统。检查是否对网络的安全系统进行了改变以致影响该用户。
  第4步:排除故障。一旦确定了故障源,那么识别故障类型是比较容易的。对于网络硬件设备来说,最方便的措施就是简单地更换,对损坏部分的维修可以以后再进行。对于软件故障。重新安装有问题的软件,删除可能有问题的文件并且确保你拥有全部所需的文件。
  第5步:检验故障是否被排除。请操作人员测试一下故障是否依然存在,这可以确保是否整个故障都已被排除。只是简要地请用户按正常方法操作有关网络设备即可,同时请用户快速地执行其他几种正常操作。有时解决一个地方的问题会引出别处的问题;有时问题是解决了,但可能会掩盖其他故障。
  在检修网络故障的工作中,下面的一些提示很有用:①不要忽略显而易见的东西。网络电缆松动是很常见的问题,应检查插头、连接器、电缆、集线器和开关等,小事情可能引起大问题。②大多数问题是由人为因素(错误)造成的,通过提供网络配置和作用信息或提供这方面的培训,可以杜绝其中的大部分错误。③要注意解决问题的方式方法,应利用每次测试时收集到的信息去指导测试,如果不能确保所选择的原始测试环境,就千万不要根据主观臆断转移到另一个测试环境中。④应广开思路、灵活变通,不要认为问题的原因太多,不要认为在应用程序级发现的问题就不是下一级引起的。有些人总认为网络有故障,而另一些人总认为远程端有问题,某些人如此肯定他们知道问题的原因,以致不管测试的结果。千万不要重蹈这些覆辙,应测试每一种可能的情况,根据测试结果决定行动。
  总之网络故障诊断以网络原理、网络配置和网络运行的知识为基础。从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。
  
  参考文献:
  [1]蔡立军.计算机网络安全技术.中国水利水电出版社,2005.
  [2]周凯.广域网技术应用.重庆大学出版社,2005.


转载注明来源:https://www.xzbu.com/1/view-242457.htm