您好, 访客   登录/注册

大数据隐私保护探究

来源:用户上传      作者:

  摘 要 大数据环境下,隐私面临前所未有的挑战,部分传统隐私保护技术面临失效,如何合理选择隐私保护技术是一个具有挑战性的任务。本文分析了常用的隐私保护技术及其局限性,讨论了大数据环境下的隐私保护的新挑战,为大数据应用实践中建立合理的隐私管理方案提供参考。
  关键词 大数据;隐私泄露;匿名化技术;差分隐私
  大数据技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。大数据在带来了巨大效益的同时,也给用户隐私保护方面的带来了前所未有的挑战。
  1 数据隐私的范围
  隐私的界定应以法律为依据,我国《中华人民共和国刑法》、《中华人民共和国民法总则》、《中华人民共和国网络安全法》、《消费者权益保护法》、《中华人民共和国电子商务法》等有多部法律、法规、规章涉及个人信息保护,《中华人民共和国个人信息保护法》也已列入十三届全国人大常委会立法规划。梳理现行和即将出台的法律法规以及国家标准规范,数据隐私主要包括身份信息、健康生理、财产状况、社交行为、行踪轨迹等反映特定主体活动情况的各种信息[1]。
  2 数据隐私泄露现状
  据中消协11月28日发布《100款App个人信息收集与隐私政策测评报告》,10类App普遍存在涉嫌过度收集个人信息的情况,59款App涉嫌过度收集“位置信息”,28 款App涉嫌过度收集“通讯录信息”,23 款App涉嫌过度收集“身份信息”。全球范围内,2018年6月,美国Exactis公司泄露约3.4亿条记录,涉及2.3亿人隐私信息,泄露原因是数据库暴露在可公开访问网络且未采取任何有效的安全防护措施[2]。
  3 数据隐私技术
  數据隐私保护的常用技术包括数据加密、匿名化以及数据溯源等技术,数据加密技术主要解决数据存储、计算以及通信的安全性,匿名化技术主要解决数据加工处理、挖掘分析以及数据发布时防止敏感信息泄露。
  3.1 数据加密技术
  目前数据加密技术主要包括安全多方计算、密文检索、同态加密等是常用的密码技术,主要解决数据存储、通信和分析应用的安全性。安全多方计算可以解决一组互不信任的参与方之间保护隐私的协同计算问题,并确保除了用户的输入以及输出信息外,不会额外地暴露信息。加密存储和密文在较高的安全前提下,提供较高的检索效率。
  3.2 匿名化技术
  是隐私保护最常用的技术手段,通常采用抑制、泛化等操作隐藏或者模糊数据以及数据源。泛化是指对数据进行更加概括、抽象的描述,而抑制则是指不发布某些数据项,常见的数据隐私保护的模型有k-匿名化(K-Anonymity)、l-多样化(L-Diversity)、T-closeness模型、差分隐私(ε-differential privacy)等模型的及其改进算法,以满足不同的应用场景需求。
  准标识符是指结合一定的外部信息能够以较高的概率确定一条用户记录,k-匿名化模型要求发布的数据中存在一定数量(至少为k) 的在准标识符上不可区分的记录,使潜在的攻击者无法区分隐私信息所属的个体。k-匿名的缺陷是未对等价类中的敏感属性进行约束,例如,某等价类中任意一个敏感属性取值相同,则攻击者可以推理出该敏感值[3]。
  l-多样化(L-Diversity)模型在k-匿名化的基础上要求每个等价类至少包含L个不同的敏感属性值,虽然l-多样化保证了敏感属性的多样性,却忽视了敏感属性的全局分布。T-closeness模型在l-多样化基础上,考虑了敏感属性的分布问题,要求所有等价类中敏感属性值的分布尽量接近该属性的全局分布。
  3.3 差分隐私(ε-differential privacy)
  是严格的、可证明的隐私保护模型,ε是隐私保护参数(ε越小隐私保护程度越高,输出扰动越大)来调整数据的实用性和隐私性。实际应用中,实施的难度和成本较高,为了平衡隐私性与可用性,ε参数的选择是个具有挑战性的问题。
  4 大数据环境下的新挑战
  大数据具有规模大、来源多、动态更新等特点,传统的隐私保护技术都可能失效或面临新的挑战。
  首先,数据加密技术面临的挑战。许多密码技术是基于内存计算的,不适应大数据分布式存储和并行计算环境,面临可扩展性差、计算代价高,不适应新型计算框架等方面的问题。
  其次,匿名化技术面临的挑战。匿名化模型和差分隐私保护模型都假设数据集的数据是相互独立的,大数据的大规模性、高速性、多样性、相关性以及多个异构数据源的融合可能使原有的隐私保护方案失效。
  最后,大数据分析和融合面给隐私保护带来了新挑战。新型计算框架、高性能算法、更加复杂的分析模型可以挖掘出大数据中的异常点、频繁模式、分类模式、数据之间的相关性以及用户行为模式等信息,从而泄露用户隐私信息或也为攻击者更丰富的背景知识[4]。
  5 结束语
  大数据在当前具有广阔的发展前景,但同时面临的隐私挑战和风险也是空前的。大数据隐私保护不仅仅是技术方面的问题,它还涉及法律法规、监管模式、宗教等诸多方面,需要各界共同努力才能实现。
  参考文献
  [1] 中消协.100款App个人信息收集与隐私政策测评报告(2018年)[EB/OL]. http://wemedia.ifeng.com/90478388/wemedia.shtml,2018-11-29.
  [2] 张啸剑,孟小峰.面向数据发布和分析的差分隐私保护[J].计算机学报,2014,37(4):927-949.
  [3] Sweeney L.k-anonymity:Amodel for protection privacy. International Journal Uncertainty[J].Fuzzines and Knowledge-based Sys Tems,2002,10(5):557-570.
  [4] 张俊,萧小奎.数据分享中的差分隐私保护[J].中国计算机学会通讯,2014,10(6):44-51.
转载注明来源:https://www.xzbu.com/1/view-14901408.htm