您好, 访客   登录/注册

医学数据挖掘解析

来源:用户上传      作者:

  【摘要】数据挖掘技术应用于医学领域,有助于从海量信息中提取有价值信息,为疾病的诊治及临床研究提供科学依据。本文主要介绍数据挖掘概念,数据挖掘主要方法,数据挖掘过程及其在临床各方面的应用,为进一步深入研究打下理论基础。
  【关键词】数据挖掘;挖掘方法;临床应用
  1.引言
  随着数据库技术的迅速发展,在医疗机构中有大量的医疗数据被记录下来。这些数据对于疾病的诊断,治疗及流行病学研究都有重要价值。然而,如果缺乏正确有效的工具,信息的利用将面临很多问题:如信息量巨大,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理等等[1]。数据挖掘技术的发展在一定程度上解决了这些问题,利用数据挖掘技术可以从海量的医学资源中找到有价值的信息为疾病的诊治提供决策支持。
  所谓数据挖掘技术,是指从大量的、不完全的、有噪声的、模糊的数据中,提取隐含的、未知的、非平凡的及有潜在的应用价值的信息或模式,帮助决策者调整市场策略,减少风险,做出正确的判断和决策[2]。医学数据挖掘处理的数据量非常巨大,而医学数据的不完整及隐私性等特性,对合理的挖掘方法提出新的挑战。下面介绍几种在医学上常用的数据挖掘方法。
  2.医学数据挖掘方法
  2.1 预测建模。通过对病例的数据挖掘,对人体病例的体征数据进行分析对比,从而学习到新的预测病例的方法,可以提前预测疾病的发生,及时挽救患者的生命[3]。预测建模有两种模式:分类和回归。分类用于预测离散的目标变量,而回归用于预测连续的目标变量。Melgani和Bazi[4]以美国麻省理工学院的心律失常数据库的心电图为原始数据,采用不同分类模型,对心电图的5种异性波形进行分类,为预测心脏病的发生提供了科学依据。
  2.2 关联分析。关联是反映一个事件和其他事件之间的依赖或联系。关联分析主要用于DNA序列间相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因素分析等[5]。其处理包括两个步骤:第一步是利用标准关联规则挖掘算法挖掘有关的关联规则,第二步是基于所挖掘出的关联规则构造出一个分类器。关联规则有如下优点:可以产生清晰有用的结果;支持间接数据挖掘;可以处理变长数据;计算的消耗量可以预见[6]。
  2.3 聚类分析。聚类分析是对输入集中的记录进行分类。聚类分析是一种探索性统计分析方法,是在没有经验的情况下对数据进行分类。聚类技术主要包括传统的模式识别方法和数学分类学,例如决策树归纳,贝叶斯分类,神经网络技术,基于知识的案例推理,遗传算法,粗糙集等[7]。
  3.医学数据挖掘的基本过程
  3.1 问题定义:确定医学研究的问题和目标,理解相应的医学领域知识,确定医学数据挖掘目标和结论评估标准。
  3.2 数据准备:针对定义的问题,将原始数据转化为数据挖掘的特殊形式。
  3.3 医学数据挖掘:问题进一步被明确化,对数据结构和内容做进一步调整,建立知识模型。
  3.4 结果分析:对医学数据挖掘结论作出解释,并与最初研究目标比较,找出可能出错的环节,寻求解决办法。
  3.5 知识运用:在运用的过程中,要有计划的实施和控制,以便为今后工作提供参考。
  4.医学数据挖掘技术在临床中的应用
  4.1 疾病诊断、预测。通过数据挖掘对病人的病例及治疗预后进行分类,挖掘出有价值的诊断规则,为临床决策服务。还可以将专家的经验转化为关联规则,根据患者症状,作出判断,减少医生主观判断失误[8]。除对疾病分类之外,还可以对疾病程度分级,筛选危险因素,决定开药处方大小以及选择治疗方法等。目前数据挖掘技术已成功应用于胸痛发展结果的预测诊断、ICU应急诊断、类风湿类型的鉴别诊断、乳腺疾病的诊断、胎儿早产的诊断、肝病分类诊断、急性阑尾盐分类等诊断。
  4.2 医院管理。医院信息分为管理信息和临床信息。前者主要处理医院日常经营和内部管理方面的信息,后者主要处理与医疗过程相关的信息。医疗机构的服务要求不断提高,质量效率问题日益受到重视。通过医学数据挖掘技术、可以发现新的规律、检验其有效性,提出调整方案,提高单位的工作效率,增加经济效益[9]。除对病人进行多方位分析及对医疗费用提出科学指导以外,数据挖掘也可以将医院不同系统的数据汇总,真正了解医院各部分的运营状况,对资源进行合理配置,规范医疗行为[10]。
  4.3 新药开发。在新药的研发过程中,关键环节是先导化合物的发掘。数据挖掘可以有效的存储、管理分析大量相关数据。在数据挖掘技术的支持下,可以通过数据信息归纳总结,确定药效信息,缩短了先导化合物发现周期[11],降低新药研发成本,提高药物疗效,降低毒副作用。
  4.4 生物医学。近年来,生物医学研究有了迅猛的发展,从癌症治疗到人类基因的识别与研究,人类24对染色体的基因测序已全部完成,接下来主要任务是对DNA序列的研究。目前,数据挖掘技术已经在很多方面对DNA的分析作出贡献,数据挖掘可以完成异构、分布式基因数据库的语义集成,用关联规则分析同时出现的基因序列,用途经分析发现在疾病不同阶段的致病基因[12]。因此,数据挖掘已成为生物医学DNA分析中强有力的工具。
  4.5 医学图像处理。医学领域中越来越多的使用图像作为疾病诊断的工具,图像分析是数据挖掘在医学应用的一个重要方面。近年来,在医学影像报告中存在的不确定性非常普遍,导致错误诊断,Reiner[13]发现19.2%的乳腺钼靶X线摄影报告存在不确定性,数据挖掘技术应用于发现和改进报告中的不确定性,对提高诊断很有价值;此外,数据挖掘在影像分析中也起到重要作用。Sayeed[14]等对679个卵巢超声的图像资料库进行测试,可以实现89.60%的平均分类准确性,为卵巢异常提供决策支持。   5.结语
  我国医学数据极为丰富,但运用数据挖掘技术处理海量信息仍处于初级阶段。医学数据挖掘是一门涉及面广,技术难度大的新兴交叉学科,需要从事计算机,统计学的科研人员与医务工作者广泛合作。医学的独特性为数据挖掘提供广阔的施展空间,而数据挖掘也为医学更好的服务患者开辟的新的途径,随着理论研究的深入及不断的实践探索,相信数据挖掘技术会在医学的方方面面发挥越来越大的作用。
  参考文献
  [1]Krzysztof J Cios,William Moore.Uniqueness of medical data mining[J].Artificial Intelligence in Medicine,2002,26(1-2): 1-24.
  [2]Han JW,Kamber M.Data mining:concepts and techniques.3rd Edition.San Francisco:Morgan Kaufmann,2011:1-8.
  [3]陈功,范晓薇,蒋萌,等.数据挖掘与医学数据资源开发利用[J].北京生物医学工程,2010,29(3):323-328.
  [4]Melgani F,Bazi Y.Classification of electrocardiogram signals with support vector machines and particle swarm optimization[J].IEEE Trans Inf Technol Biomed,2008,12(5):667-677.
  [5]崔雷.医学数据挖掘[M].北京:高等教育出版社,2006.
  [6]钟颖,胡雪蕾,陆建峰.基于关联规则和决策树的中医胃炎诊断分析[J].中国中医药信息杂志,2008,15(8):97-99.
  [7]程鹏,宋余庆,朱玉全.基于粗糙集和决策树的医学影像分类研究[J].计算机工程与应用,2008,44(6):243-245.
  [8]叶敏,李晓松,殷菲.2004年我国荨麻疹发病情况分析[J].现代预防医学,2008,35(8):1561-1563.
  [9]杨玲,姚怀国.数据仓库技术在医院病案信息管理中的应用[J].现代医院,2008,8(6):131-132.
  [10]王徐冬,杨希武.数据仓库和数据挖掘在医院信息系统中的应用[J].医疗卫生装备,2008,29(8):47-49.
  [11]Wang ML,Wai L,Leung K S.Discovery knowledge from medical database using evolutionary algorithms[J].IEEE Eng Med Biol Mag,2000,19(4):45.
  [12]王欢.浅谈数据挖掘技术及其应用[J].科技信息,2009 (21):76-77.
  [13]Reiner B.Uncovering and improving upon the inherent deficiencies of radiology reporting through data mining.J Digit Imaging,2010,23(2):109-118.
  [14]Sayeed A,Bhattacharyap,Mudur SP,et al.Classfication of ultrasound medical imagine using distance based feature selection and Fuzzy-SVM.Computer Science,2011, 6699:176-183.
转载注明来源:https://www.xzbu.com/8/view-12685183.htm