您好, 访客   登录/注册

基于生成对抗模型的告警数据增强研究

来源:用户上传      作者:商英俊 王莹 汤士党

  摘要:随着网络通信技术的不断发展,网络结构也变得越来越复杂,网络故障的诊断和处理问题也越来越复杂,网络告警数据的采集提取以及处理成为了有难度的问题。为了利用较少的告警数据训练模型以诊断告警,引入了数据增强算法以U充数据,训练模型。但以循环神经网络(RecurrentNeural Network, RNN)为代表的一些深度学习模型存在梯度消失、暴露偏差等问题,本文提出了一种以生成式对抗网络(Generative Adversarial Networks, GAN)为基础的告警日志数据扩充方法,通过生成模型与判别模型二者之间的博弈对抗训练,提升数据生成的性能。仿真结果表明,基于GAN的告警数据扩充方法生成数据效果更佳。
  关键词:数据增强;生成式对抗网络;强化学习;告警数据
  中图分类号:TP319文献标志码:A文章编号:1008-1739(2022)11-58-5
  近年来,网络通信的发展越来越迅速,网络的结构越来越复杂,网络故障的诊断和处理问题也越来越复杂。大多数故障诊断算法需要学习故障数据的特征来重构故障诊断模型,因此它们依赖于故障数据集来提供丰富的信息数据。但是在现实的网络运行场景中,网络故障数据发生频率和规模较低,难以有效覆盖网络故障数据全集,从而无法准确构建网络故障诊断模型。为解决网络架构和网络告警数据日渐复杂的情况,告警诊断模型难以获得足够的告警数据的问题,采用深度学习模型的文本生成技术根据真实数据生成告警数据进行数据增强,取得了一些显著的成果。
  Sivasurya使用长短期记忆(Long Short-Term Memory,LSTM)网络作为基础,结合数据的上下文关系,用以生成文本数据;Kiddon等人[1]以循环神经网络(Recurrent Neural Network,RNN)为基础生成文本数据,对于生成长文本数据时模型表现不佳的问题,引入神经核对表模型,通过存储并更新全局信息以更好地模拟文本生成的过程;Sayan等人[2]以LSTM网络作为基础生成文本,同时考量文本数据中的情感信息,通过一个附加的设计参数自定义生成句中的情感内容。
  但传统的文本生成模型,如带有LSTM单元的RNN,存在暴露偏差问题,可以通过使用生成式对抗网络(Generative Adversarial Networks,GAN)来避免这个问题[3]。GAN通过在生成器和判别器之间引入对抗性机制来匹配合成数据和真实数据的分布。由于对抗训练的性质,判别器比较的是真实句子和合成句子,而不是单个单词,可以有效地缓解暴露偏差问题。
  Zhang等人[4]提出了一个通过对抗训练生成真实文本的框架,通过核化差异度量来匹配真实句子和合成句子的高维潜在特征分布,该方法通过减轻模式崩溃问题来简化对抗训练。Akmal等人[5]提出了一种使用知识蒸馏的方法来有效利用GAN进行文本生成。Jingjing Xu等人[6]提出了一种多样性促进生成对抗网络(DP-GAN)。为重复生成的文本分配低奖励,为新颖和流畅的文本分配高奖励,鼓励生成器生成多样化和信息丰富的文本。
  因此,针对网络故障数据集不平衡的问题,借鉴GAN网络模型,提出了一种基于GAN的告警数据生成方法,除了训练一个用于生成数据的生成模型外,同时训练一个判别模型,通过在训练中二者之间的博弈,提升数据生成的质量。仿真结果表明,GAN所生成的告警数据质量更高。
  1.1基于LSTM网络的数据生成器
  引入一个LSTM网络模型作为数据生成器,每个时间步的输出都与之前时间步的输出相关,可以解决一般的RNN较难学习到长时间前的信息、长期记忆效果差的问题。LSTM中引入了输入门、遗忘门和输出门3个门,以及与隐藏状态维度相同的记忆细胞,以记录额外的信息。基于LSTM网络的数据生成器模型如图1所示。
  为了进一步对比2种算法生成文本的质量,进行了实验比较训练过程中2种算法生成数据的BLEU-2,BLEU-3,BLEU-4各个指标值,对比结果如图4、图5和图6所示。

转载注明来源:https://www.xzbu.com/1/view-15436571.htm

相关文章