您好, 访客   登录/注册

软件定义物联网中基于深度强化学习的路由优化算法

来源:用户上传      作者:王健?朱晓娟

  摘 要:随着物联网的飞速发展,高速、海量的数据通信向服务质量保障机制提出了挑战。为了很好地满足用户对高效、低延迟路由的需求,文章结合软件定义网络(SDN)技术,提出一种软件定义物联网中基于深度强化学习的路由优化算法(RDIS)。RDIS利用控制器收集网络信息,基于改进的深度确定性策略梯度算法,在经验回放池中根据重要性对样本采样,最终获得一条性能近乎最优的路径。仿真实验表明,相较于传统的路由算法,RDIS在吞吐量和延迟方面具有更好的网络性能。
  关键词:物联网;软件定义网络;路由优化;深度强化学习
  中图分类号:TP393 文献标识码:A文章编号:2096-4706(2022)08-0158-05
  Routing Optimization Algorithm Based on Deep Reinforcement Learning in
  Software Defined Internet of Things
  WANG Jian, ZHU Xiaojuan
  (School of Computer Science and Engineering, Anhui University of Technology, Huainan 232001, China)
  Abstract: With the rapid development of the Internet of Things, high-speed and massive data communication poses a challenge to the service quality assurance mechanism. In order to meet the needs of users for efficient and low-latency routing, this paper proposes a routing optimization algorithm based on deep reinforcement learning (RDIS) in the software-defined Internet of Things (SDN) technology. RDIS uses the controller to collect network information, and based on the improved deep deterministic policy gradient algorithm, samples are sampled according to importance in the experience playback pool, and finally a path with near-optimal performance is obtained. Simulation experiments show that, compared with traditional routing algorithms, RDIS has better network performance in terms of throughput and delay.
  Keywords: Internet of Things; software defined network; routing optimization; Deep Reinforcement Learning
  0 引 言
  近年来,物联网(Internet of Things, IoT)被广泛应用于环境监测、工业控制和国防军事等领域,并逐渐成为全球科技战略发展的焦点之一。随着物联网的快速发展,高速、海量数据通信向服务质量保障机制提出了挑战。于是,有学者提出了软件定义网络(software defined network, SDN)[1],用以优化通信网络。SDN是将控制平面和数据平面分离的框架,以便动态管理和控制大量网络设备、拓扑、路由、QoS和数据包处理策略。SDN控制器通过在控制器内运行不同的模块来执行各种任务,从而提供面向应用程序的服务。
  强化学习作为可以优化网络决策的一种方案也被应用到物联网环境中。在一定的环境状态中,智能体与环境交互,根据动作来获得奖励,并根据奖励情况确定下一步的动作,循环往复,不断提高自己的决策能力。Lillicrap[2]等人提出的深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)基于Actor-Critic框架解决连续状态空间下的问题。DDPG使用深度Q网络逼近Q表,使用策略网络直接产生确定的动作,解决了DQN面对连续动作时无法处理的问题。
  文献[3-6]提出了基于SDN特性的路由解决方案,如可编程性、全局视图、网络传输和控制的解耦,以及逻辑集中控制。但是这些解决方案没有使用强化学习的算法,在网络状态变化时容易导致拥塞。
  Muhammad Adil等人[7]提出一种高效的混合路由方案(DCBSRP),利用自组织按需距离矢量(AODV)路由协议和低能耗自适应集群层次结构(LEACH)协议,在规定的时间间隔内动态形成簇头节点。选择能量高的节点充当簇头节点,平衡节点之间的负载。仿真结果表明,该方案不仅提高了网络的寿命,而且在吞吐量、丢包率和能效方面都优于其他方案。
  文献[8-10]基于传统强化学习的思想解决路由优化问题。CHANGHE YU[11]等人使用深度强化学习(deep reinforcement learning, DRL)中的DDPGβ酚山行优化。仿真实验表明,该算法实现了对网络全局的智能控制和管理,具有良好的收敛性。针对DDPG训练过程会消耗较多网络资源这一情况,周浩[12]等人提出了“线下训练、线上运行”的方法,但他们在设计该方法时并没有将复杂的网络环境考虑在内。

nlc202208231131



转载注明来源:https://www.xzbu.com/1/view-15438069.htm

相关文章