您好, 访客   登录/注册

基于聚类分析的横向联邦学习方案

来源:用户上传      作者:赵俊杰?张国兴?杨杰

  摘 要:联邦学习是一种分布式的学习方法,参与者协同训练模型,参与者将数据保留在本地,只是把模型参数发送到服务器,从而保证了数据的安全性。研究发现,在模型训练的过程中,存在遭受数据投毒的数据或恶意窜改的数据,使训练的模型难以取得较好的预测效果。因此,文章提出一个基于聚类分析的参与者评价算法,通过对数据集进行联合分析并采取相应的措施来防御投毒攻击。实验结果证明了方案的合理性和实效性,有效防止了横向联邦学习中的投毒攻击。
  关键词:聚类分析;联邦学习;正态分布
  中图分类号:TP18 文献标识码:A文章编号:2096-4706(2022)08-0082-04
  A Horizontal Federated Learning Scheme Based on Cluster Analysis
  ZHAO Junjie, ZHANG Guoxing, YANG Jie
  (School of Computer Science, South-Central Minzu University, Wuhan 430074, China)
  Abstract: Federated learning is a distributed learning method. Participants cooperate to train the models, keep the data locally, and only send the model parameters to the service to ensure the security of the data. It is found that in the process of model training, there are data poisoned by data or maliciously tampered data, which makes it difficult for the trained model to achieve better prediction results. Therefore, this paper proposes a participant evaluation algorithm based on cluster analysis, through the joint analysis of data sets and taking corresponding measures to prevent poisoning attacks. The experimental results show that the scheme is reasonable and effective, and effectively prevent poisoning attacks in horizontal federated learning.
  Keywords: cluster analysis; federated learning; normal distribution
  0 引 言
  随着科技的发展,人工智能[1]已经深入到人们的日常生活中。在现实生活中,数据通常不是由单一主体管理而是掌握在诸多参与者的手中。而且在欧盟委员会强制实施《通用数据保护条例》之后,数据安全在监管上呈现全面化、密集化、严格化的趋势[2]。各方参与者不愿意共享数据,形成数据孤岛,阻碍了人工智能的发展。2016年,Mcmahan等[3]首次提出联邦学习的概念,即利用分散在各个移动设备上的数据进行本地训练,然后将训练的梯度发送到服务器,再由服务器进行梯度聚合,最后设备获取到新的梯度。这种将数据保存在本地的训练方式使数据的安全性得到极大程度的提高,解决了数据孤岛问题,推动了人工智能的发展。
  联邦学习的目的是为了让参与者在保证隐私安全、数据安全以及遵守相关规定的前提下协同进行模型训练。然而,随着研究的不断深入,联邦学习依然面临着许多的安全风险。比如在传输的过程中,如果发生梯度泄露[4],参与者的数据很有可能通过梯度被反推出来,那么参与者的数据安全将会受到严重威胁。如果参与者中有人对数据进行投毒或者提供虚假数据,那么模型将很难得到一个很好的训练效果。比如服务器不可信时,那么用户选择的服务和拥有的数据都会存在巨大的风险。
  为了解决横向联邦学习中的投毒攻击问题,本文提出了基于聚类分析的参与者评价算法,实现了以下目标:
  (1)提出一种基于聚类分析的参与者评价机制。本算法的目的是针对横向联邦学习中参与者遭受到的数据投毒攻击或者恶意参与者,对他们进行篡改的数据集行为进行防御,从而保护训练模型的训练效果。
  (2)通过在真实数据集上的实验和分析,证明算法满足准确性与实效性要求。
  1 相关工作
  在横向联邦学习的框架中,具有相同数据结构的N个参与者和一个云服务器,通过参数传递协同学习一个模型。在当前的研究中,横向联邦学习的框架在实际应用中已经取得了不错的成果,但是对投毒攻击的预防并没有较好的办法。如果在这个训练中,参与者们面临的是恶意服务器或者好奇服务,那么所有参与者的样本数据将没有任何的隐私性。
  数据投毒是指攻击者对训练的数据集样本进行篡改,如添加错误标签、添加错误的数据,达到降低数据质量的效果,从而影响模型的整体训练效果。在标签翻转攻击[5]中,通过篡改数据标签影响模型的整体训练效果。在后门攻击[6]中,通过设计特别的数据,让模型在预测阶段产生与真实值相距甚远的结果。
  针对投毒攻击的问题,研究者们也提出了各种解决方案。在文献[7]中,对恶意用户提供虚假参数破坏学习过程、用户提供的参数缺乏验证、用户不愿意参与模型训练等问题,设计一种可靠的信誉评估管理机制,既能提升用户之间的可信任度,又能获得高质量的模型参数。文献[8]中提出了一种分布式学习算法――基于中值和裁剪均值的两种鲁棒分布梯度下降算法,且在验中证明了该算法可用性。在文献[9]中,可以在服务器上测量良性更新和恶意更新的分布差异,以此发现恶意用户,通过K-means算法对所有梯度值进行聚类分析,以查找出异常值。

nlc202208231449



转载注明来源:https://www.xzbu.com/1/view-15438089.htm

相关文章