云计算隐私保护研究
作者 : 未知

  【 摘 要 】 云计算作为一种新的IT应用模式,数据安全和隐私保护对云计算的安全与普及至关重要,也是用户关注的一个焦点。K-匿名算法是目前数据发布环境下隐私保护的主要技术之一。文章分析了当前云计算在隐私保护方面存在的风险,提出了一种K-匿名算法在云计算中的应用方法,使得用户在向云服务提供商请求服务时可以隐藏个人敏感信息。
  【 关键词 】 云计算;隐私保护;K-匿名算法
  1 引言
  继分布式计算、网格计算之后,云计算是新一代信息技术和产业的重要发展方向,是新的网络应用模式。其核心思想是资源租用、应用托管、服务外包。在云计算环境下,IT行业的按需服务真正得到了体现。云计算具有非常广泛的应用前景,然而在云计算提供方便易用和低成本特性的同时,也带来了新的危机,安全方面的问题首当其冲。随着云计算的不断发展,用户日益增多,用户数据的安全、用户隐私信息的保护问题、数据的异地存储以及云计算平台自身的稳定性等诸多安全和云计算监管方面的问题,直接关系到了云计算业务被用户的接受程度,进而成为了影响云计算业务拓展的最重要因素。因此,要让不同用户大规模应用云计算技术与平台,放心地将自己的数据信息交付于云服务提供商管理,就必须全面地分析并着手解决云计算所面临的各种安全问题。
  2 云计算数据和用户隐私风险分析
  云计算的基本原理是,通过使计算分布在大的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。
  云计算应用环境具有多租户、动态性、虚拟化等特点,其数据和用户隐私安全问题与传统信息安全问题有着不同的特点。在传统网络模式下,可以使用防火墙、网闸技术、数据交换网技术等边界网络防护手段。由于云计算环境的边界不确定性,这些传统的边界网络防护手段在云计算下的应用受到了极大的限制。对于用户,最重要的安全目标就是数据安全与隐私保护,防止云服务提供商恶意泄露或出卖用户隐私信息,或者对用户数据进行搜集和分析,挖掘出用户隐私数据。对于云服务提供商而言,数据的安全性不仅是对用户的可靠保证,也是自身业务的最基本需求。
  云计算数据和用户隐私风险具体有几种。
  (1)数据隔离风险。用户对与云计算存储的不可控性,不同的用户数据之间应该做到有效的隔离和加密保护,防止用户的数据遭到非法访问,威胁用户数据的安全。
  (2)数据完整性风险。由于恶意攻击和病毒感染,用户数据面临的风险主要体现为存储数据的完整性、传输数据的完整性等遭到破坏带来的风险。
  (3)数据残留风险。不完全的数据删除,硬盘设备的维修和报废都有可能导致机密数据的泄露所带来的风险。
  (4)用户隐私风险。用户身份相关的关键数据,如用户口令、姓名、银行卡号等泄露所带来的风险。
  3 云计算数据和用户隐私保护方法
  3.1 传统隐私保护方法
  数据挖掘时代,为人们提供了十分强大的发掘信息的功能,同时也给个人的隐私带来了巨大的问题。目前,解决该问题的主要方法有几种。
  (1)匿名保护。某些机构为了保护个人的隐私信息,通常都是对姓名、个人社会保障代码等能够清楚标示个人信息的显示标示符进行加密或者是删除,但是这并不足以阻止攻击者获取信息,攻击者通过所发布数据中的其他信息,例如民族、性别、生日、邮编等,和其他渠道获取的信息进行交叉对比,最终能够挖掘出用户的隐私信息。
  (2)在对数据进行清理时,对原始数据进行扰乱,扭曲,随机化之后再进行挖掘。这种方法虽然能够尽可能的保持结果里面的整体特性,但是这中方法的代价就是数据的完整性、真实性遭到破坏。
  (3)基于密码学的隐私保护技术,主要有安全多方计算、盲签名等。该方法需要很多的资源。
  为了解决以上三种方法的不足,1998 年Samarati P 和Sweeney L提出了K-匿名算法。该算法要求公布后的数据信息中必须存在一定数量的不可区分的个体信息,使攻击者无法判别出隐私信息具体属于哪一个个体信息,从而防止了个人隐私的泄露。
  3.2 K-匿名算法
  显示标识符指能够清楚标识用户隐私信息的属性, 如用户身份证号、个人社会保障号、姓名等,在用户数据表中删除显示标识符可以在一定程度上达到保护个人隐私信息的目的。但事实上,原始数据中通常还包含邮编、性别、生日、地址等非显示标识符, 攻击者可将非显示标识符和其他渠道获得的信息进行链接对比, 识别出主体身份信息。例如,某些患者不想其他人知道他的病情,但是攻击者可以从表1中根据非显示标示符来获取数据信息,再通过其他部门或者商业机构中获取其他的数据信息,进行链接对比,从而能够得到用户的隐私信息。
  K-匿名算法的要求是,给定的数据表T(A1,A2,…,An),其中准标示符(QI,Quasi Identifier)为QI(Ai,…,Aj),Ai,…,Aj∈A1,A2,…,An,在数据表T中的任何一个有序元素组值在T[QI] 中重复k次以上。
  表2满足K-匿名要求,准标识符为{民族,出生日期,性别,地址},K=2。表2中与准标示符任意一个属性相关联的值至少出现两次,K-匿名算法主要是通过泛化和隐匿技术实现,能够保持数据的真实性,发布精度比较低的数据信息,使数据表中的每一条记录都至少与该数据表中其他的K-1条记录具有完全相同的准标示符属性值,从而降低链接攻击所导致的隐私信息泄露。
  3.3 K-匿名算法在云中的应用
  假设终端用户想向云服务提供商(SP)请求服务,SP为了确保服务发给正确的用户,就会要用户的一些属性。如果用户发出了他的信息(例如地址、性别、电话号码等)给SP,这就会变得很危险。因为如果其他企业(不是SP)获得这些信息,他就可以识别用户。因此,为了避免用户的个人信息被泄露出来,我们使用基于K-匿名的方法,在用户的信息发给SP之前先对用户数据进行处理。

文秘写作 期刊发表