您好, 访客   登录/注册

基于异步深度强化学习的城市智能交通控制方法

来源:用户上传      作者:

  摘要:本文针对城市智能交通信号控制领域存在的控制效果差,算法收敛速度慢等问题,提出了一种基于异步优势行动者一评论者算法的深度强化学习的城市智能交通控制算法。首先抽象出交通路口的特征,输入到由神经网络构成的智能体,通过多个智能体异步学习,解决了传统方法控制效果不理想、训练耗时过长的问题。通过在开源交通模拟软件sumo上进行仿真,对比固定时间和传统方法控制的交通路口信号灯,不同的交通流量情况下的交通路口通行效率都有所提高。实验证明本文提出的方法可以有效解决城市交通路口信号灯控制问题。
  关键词:智能交通:深度学习;异步强化学习
  0 引言
  随着经济的发展及科技的进步,城市中的机动车越來越多,交通拥堵问题逐渐开始显现。导致城市交通拥堵的一个重要原因是城市道路交叉口的交通信号灯调度不合理,因此需要合理的交通信号灯调度来地缓解城市交通路口的拥堵。城市交通控制系统目的在于更好地控制城市交通路口交通信号灯,利用现有交通网络道路的基础设施,在没有增加大量成本的情况下有效缓解城市交通路口的交通拥堵。但是,设计适合的城市交通控制系统仍然是当前智能交通领域的热点和难点。
  本文提出的方法主要优点在于:
  (1)使用异步多线程技术,有效利用计算机资源。
  (2)所有实验都在国际主流的开源交通模拟软件sumo上进行了仿真实验,方法的可信性和可靠性得到了充分验证。
  (3)通过多次实验选择了合适的超参数,使得控制的稳定性得到了提高,程序执行的时间减少。
  1 研究现状和存在的问题
  城市交通控制系统的研究大致经历了以下几个阶段。早期的城市交通控制系统主要建立在一些简化的交通流模型上,并假设短期内交通路口的流量不变。这种人工设置固定时间的时序方法存在一些不足:这种方法严重依赖于交通路口调度人员的经验:固定时序的交通信号灯在面对交通突发状况时无法做出有效地应对。随着人工智能理论和智能控制技术的快速发展,出现了基于强化学习的城市交通控制方法。已成功用于除交通控制以外的许多应用。对于交通控制问题,基于强化学习的方法通常将交通路口周围的交通流状态视为可观察状态,将信号时序计划的变化视为动作,并将交通控制的效果视为反馈。在经过特征提取之后,交通控制问题可以被视为传统强化学习问题并通过使用一些传统强化学习算法来解决。基于基本强化学习的方法考虑了孤立交通路口的信号时序。其中大多数都是使用Q-Learning和SARSA等经典算法,用于控制单个交通路口的交通信号灯。但是传统的基于强化学习的方法使用表格来记录和描述状态和动作之间的关系。因此,很难将其用于具有多个交通路口的城市交通控制问题,因为状态一动作空间的维度太大而无法学习。
  深度学习作为人工智能研究的最新和成功的突破之一,已被引入并与强化学习方法相结合。深度强化学习的好处在于其能够通过使用比表格更有效的数据结构(深度神经网络)来快速学习和捕获状态和动作之间的关系。深度学习和强化学习的整合,就是广为人知的深度强化学习,已经成功解决如视频游戏、围棋游戏以及许多其它问题。L1等人最早提出了使用深度强化学习方法解决交通控制问题。在文章中,研究人员将这种方法应用于不同的情景,通过新的流量状态编码方法或使用不同的模型(如深度确定性策略梯度),这些方法也得到了改进。但是,现有的基于深度强化学习的城市交通控制方法在具有多个交通路口的场景中并不具有很好的控制效果。第一,一些深度神经网络(例如深度O网络)用于模型状态和动作之间的关系不适合包含多个交通路口的交通控制问题。第二,当交通路口之间的相关性变高时,一些简单的奖励函数就无法很好地描述交通系统的状态。第三,一些用于训练基于深度强化学习的城市交通控制模型的算法,无法在解决方案空间探索和最优解决方案之间保持适当的平衡,这些算法收敛太慢而无法成为大规模城市交通信号控制问题的成功方案。
  2 强化学习算法
  2.1 异步多智能体强化学习算法
  为了解决上述问题。本文提出一种利用异步优势行动者一评论者深度强化学习算法的城市智能交通控制系统。使用新的强化学习的奖励函数,对城市交通路口的信号灯进行自适应控制。本文提出的城市交通控制方法,不仅解决了多个交通路口之间的协作问题及强化学习状态空间的表达,并且有效控制方案的时间得到了降低,有效地提高了城市交通路网的路口通行效率。
  2.2 异步优势行动者一评论者算法
  本文提出的基于异步优势行动者一评论者(asynchronous advantage actor-critic,A3C)方法的深度强化学习,较好地解决了系统的深度强化学习的收敛速度慢、学习效果差等问题。在异步深度强化学习方法中。A3C在各类动作空间的任务控制上表现最佳。其合并了以值函数为基础(Olearning)和以动作概率为基础(Policy Gradients)两类强化学习算法。A3C具有基于奖励值的优化模式和对高维数据的快速优化决策能力。算法原理如图1所示。
  2.3场景介绍
  交通路网的示意如图2所示。交通网络由2条南北方向的道路和2条东西方向的道路组成。每条道路长500m,这4条道路构成了4个交通路口。每条道路都是双向四车道。将交通路网的4个路口的等待车辆数量作为一个一维数组,输入神经网络。
  动作集合:每个交通路口的车辆有4种状态,南北直行、东西直行、南北左转、东西左转。右转总是被允许。场景如图3、图4所示。
  2.4 算法设计
  控制交通信号的智能体是由一个深度神经网络构成。这个神经网络是一个全连接神经网络,结构为4*10*20*10*4,。输出层有4个神经元,每一个神经元对应着一个交通路口,每个神经元有4种状态,对应着交通路口的4种状态。
  学习算法:使用异步优势行动者一评论者算法将异步方法引入到深度强化学习中,代替经验重放机制:利用多线程技术使多个模型同时训练打破数据间的相关性,提升算法的学习效果、学习速度和学习稳定性。   算法过程如下:
  设公共部分的A3C神经网络结构,对应参数θ,w,本线程的A3C神经网络结构,对应参数。θ’,w’,全局共享的迭代轮数T,全局最大迭代次数Tmax,线程内单次迭代时间序列最大长度Tlocal,状态特征維度n,动作集A,步长α,β,熵系数c,衰减因子γ,探索率ε。
  输入:公共部分的A3C神经网络参数,θ,w
  (1)更新时间序列t=1;
  (2)重置Actor和Critic的梯度更新量:dθ←0,dw←0:
  (3)从公共部分的A3C神经网络同步参数到本线程的神经网络:θ’=θ,w’=w:
  (4)tatart=t,初始化状态st;
  (5)基于策略π(at|st;θ)选择出动作at;
  (6)执行动作at得到奖励r和新状态st+1;
  (7)t←t+1,T←T+1,
  (8)如果St是终止状态,或t-tatart==tlocal,则进入步骤(9),否则回到步骤(5);
  (9)计算最后一个时间序列位置st的Q(s,t):Q(s,t)=
  (11)更新全局神经网络的模型参数:
  θ=θ-αdθ,w=w-βdw。
  (12)如果T>Tmax,则算法结束,输出公共部分的A3C神经网络参数θ,w,否则进入步骤(3)。
  3 实验结果与总结
  实验结果见表1,使用异步优势行动者一评论者学习算法的城市智能交通信号灯,比传统的强化学习和固定时间的交通信号灯的控制效果有了明显的提升。而且本文提出的算法具有很好的适应能力,在不同的通行量的情况下,算法的执行效果都很好。表明算法具有很好的鲁棒性。
  4 结束语
  本文通过分析传统方法,提出了一种基于异步深度强化学习算法的城市智能交通控制方法,该方法在具有多个交通路口的城市交通路网控制方面不仅控制效果得到了提高,同时充分利用了计算机资源,使得算法在控制效果提升的同时算法收敛所用的时间相比于传统的方法也有了减少。但是该方法还存在一些可以改进的空间。比如在更为复杂的大规模城市交通路网、具有行人的交通场景等,是下一步的研究目标。
转载注明来源:https://www.xzbu.com/8/view-15125490.htm