基于知识图谱的健康大数据背景下国内隐私保护研究
来源:用户上传
作者:欧阳婷 杨银凤 王元茂 谷宗运 束建华
摘 要:目的:探索健康大数据背景下隐私保护的研究现状、热点及趋势。方法:收集CNKI收录的国内2013-2020年本领域研究文献,筛选后下载导出,并利用CiteSpace V软件对作者、关键词分别进行可视化分析,绘制本领域的知识图谱。结果:共纳入有效文献401篇,2013-2020年发文量呈上升趋势,但核心研究团队欠缺,合作较为松散。研究热点是围绕隐私保护和患者隐私权,在技术应用和法律保障等方面进行拓展研究。研究历程可分为法律方面探讨→技术方面保护→全方位隐私保护三个阶段。结论:健康大数据背景下,从技术、法律、人文等角度为个人提供全方位的隐私保护是学者们未来研究的热点与趋势。
关键词:健康大数据;隐私保护;知识图谱;可视化
中图分类号:TP309 文献标识码:A 文章编号:1673-260X(2022)01-0036-05
自2012年,各国相继推出大数据建设计划。“大数据”旋风席卷了各个领域,医疗卫生领域也不例外。2020年,十九届五中全会公报指出国家在“十四五”期间要全面推进健康中国、数字中国建设[1]。数字化、大数据等技术在健康领域的应用将更加深入。健康大数据除了具有大数据的5V(Volume、Velocity、Veracity、Value、Variety)特点外,还呈现出持续性的特征。健康数据需长时间记录和监测才能达到预测及早期治疗的目的,在此过程中任何一个环节数据的泄露都可能威胁到个人隐私安全,隐私保护亟待重视。本研究基于知识图谱对CNKI相关文献进行定量分析,梳理健康大数据背景下隐私保护的研究现状、热点及趋势等,以期为今后的健康隐私保护及相关法律法规的制定提供参考。
1 数据来源及研究方法
1.1 数据来源
本研究以全球最大的中文数据库中国知网(CNKI)为检索来源,检索时间设定为2013年1月至2020年12月,检索方式选择高级检索,采用“主题”进行精确检索,检索策略为(“隐私保护”or“隐私安全”or“隐私风险”or“信息安全”)and(“健康大稻荨or“医疗大数据”or“患者”)初步获得文献813篇,通过阅读题名、摘要及全文逐篇剔除与健康大数据背景不相关的文献,最终获得有效文献401篇,以“Refworks”格式进行导出。
1.2 研究工具
知识图谱(Knowledge Graph),即知识域可视化,利用可视化图谱展现知识资源及其载体的动态发展规律,为学科研究提供有价值的参考[2]。
1.3 参数设置
将导出的文档利用Citespace V(版本号5.7.R5W)自带的格式转换工具完成数据格式转换,转换后的数据重新导入Citespace V,Time slicing设置为2013年1月-2020年12月,Year per slice设置为“1”,Top N persliec设置为“50”,剪切方式选择“pathfinder”,节点类型分别选择作者、关键词,热点分析时对相关近义词进行合并,分别绘制知识图谱。
2 结果
2.1 时间分析
通过分析时间轴上文献发表数量的发布规律,可以反映出该领域的研究热度、规模及发展速度。对纳入的401篇文献进行年度数量统计,绘制年度发文量折线图(见图1)。
由图1可以看出相关研究发文量总体上呈上升趋势,大致可以分为两个阶段:第一个阶段(2013-2018年)为平稳增长期,年发文量平稳增长,2017年最多为49篇;第二阶段(2019-2020年)为快速增长期,发文曲线呈直线上升,2020年达到124篇。
2.2 作者分析
作者合作网络分析反映了作者之间的合作关系,每个节点对应一位作者,连线反映合作关系,本研究领域作者合作网络图谱见图2,图中突显了发文量超过2篇的作者,共有856个节点,1231条连线,Density值为0.0034,说明该领域已被广泛关注,但相互合作关系松散,研究较为分散,本领域的研究深度尚欠缺。本领域各研究团队发文量不多,尚未形成具有较高影响力的核心作者及团队,但团队已逐步稳定,综合分析各团队研究的方向略有不同,见表1。
2.3 关键词分析
2.3.1 关键词共现
关键词最能体现文献的核心,是对文献主题的概括和总结,关键词出现的越多,节点越大,说明该关键词受到的关注越多[3]。将相近、同义的关键词合并后分析得到高频关键词共现图谱,见图3。由图可见出现频次≥15的关键词共有15个,共得到节点数705个,连线1776条,密度Density=0.0072。
关键词的中介中心性也是测度该关键词在分析网络中重要性的指标之一,反映该关键词在共现图谱网络中媒介能力的强弱。一般认为,中介中心性≥0.1的关键词在网络中较为重要,被称为关键节点[2]。图3中高频关键词的中介中心性分析结果如表2所示。由表中数据可见本领域主要围绕患者隐私权、隐私保护、患者隐私、电子病历、健康大数据和互联网医疗等关键议题展开了多角度的研究与讨论,其中“隐私保护”及“患者隐私权”无论是出现频次还是中介中心度均较高,说明近几年该领域主要围绕这两个主题,在相关技术应用及法律保障等方面进行拓展研究。
2.3.2 关键词聚类
利用LLR算法对关键词进行聚类,形成关键词聚类图谱,见图4。由图中可以看出模块化Q=0.7558(>0.3)说明聚类是有效的,平均轮廓S=0.9173(>0.5且大于0.7)说明聚类一致性较高,结果合理且可信。一个色块代表一个聚类,聚类知识图谱中有多块聚类重叠,提示聚类与聚类之间联系紧密,对各聚类研究关键词进行归纳总结,具体分析见表3。
2.3.3 关键词突现
转载注明来源:https://www.xzbu.com/1/view-15423766.htm