您好, 访客   登录/注册

数据挖掘技术在中医医案的应用研究

来源:用户上传      作者:仲芳 杨巍 赵翀 郭晶磊

  摘要:医案是历代医家临床实践经验及学术思想的载体,伴随大数据时代的到来及数据挖掘技术的兴起,数据挖掘被广泛地应用于中医药领域,成为发掘与整理中医医案的实用工具。本文从中医药领域常用的数据挖掘技术、存在问题及对策3个方面进行综述,以期为中医医案的研究提供新的思路。
   关键词:数据挖掘;中医医案;文献研究;综述
   中图分类号:R2-05    文献标识码:A    文章编号:1005-5304(2020)02-0141-04
   DOI:10.3969/j.issn.1005-5304.201903376
  Application Study of Data Mining Technology in Clinical Medical Records of TCM
  ZHONG Fang, YANG Wei, ZHAO Chong, GUO Jinglei
  School of Basic Medical Sciences, Shanghai University of Traditional Chinese Medicine, Shanghai 201203, China
   Abstract: Medical record is the carrier of clinical practice experience and academic thought of TCM doctors in past dynasties. With the advent of the era of big data and the rise of data mining techniques, data mining has been widely used in the field of TCM and has become a good tool for discovering and sorting out medical records. This article reviewed three aspects of data mining technology commonly used in the field of TCM, problems and countermeasure, with the purpose to provide new research ideas for the study of TCM medical records.
   Keywords: data mining; TCM records; literature research; review
   医案是中医诊疗活动中的真实记录,最能体现古今医家的学术水平[1]。中医医案作为历代中医医家临床诊疗经验的记录,蕴藏着历代医家的医学思想和辨证论治经验,承载着中医知识体系的传承与发展。但由于历代中医医案文献数量众多且文字记载复杂,人工阅读能力有限而机器识别度低,所以整理并挖掘中医病案中隐藏的知识与规律存在着巨大挑战[2]。数据挖掘是统计学与计算机应用科学及背景学科相互交叉的产物[3],为医案的发掘与整理提供了新的方法。随着数据挖掘技术的应用,大量隐含在文本中的知识不断被发现,本文就中医医案研究中常用的数据挖掘技术、目前存在的问题及未来发展趋势进行述评。
  1  常用的数据挖掘技术
   数据挖掘技术未出现之前,医者通过阅读大量医案并进行思考,结合自身医学知识及临床实践经验,从不同的角度总结研读医案的感悟,包括医家的医案特色及学术思想,最后提炼出按语记录下来,便于医者在临床中运用。如宋代许叔微开创了中医个案专著之先河,其在《伤寒九十论》中先述医案再论述,每个医案后皆载有心得,论述了90种伤寒病证[4]。早期人工整理的中医医案为现代数据挖掘技术的应用奠定了数据来源的基础。
   数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中、不为人知的、潜在、有用的信息和知识的过程[5]。数据挖掘技术融合众多学科的精华,如数据库技术、人工智能、机器学习、统计分析、模别、神经网络和信息检索等[6]。
   目前,数据挖掘技术主要运用于以下4个方面:一是总结名老中医的用药经验,有效认识名老中医诊治疾病经验,为形成能指导临床实践的理论和方法的共识打下基础;二是发现最佳配伍,常从用药频数、药症关系、最佳治疗剂量、药对配伍等方面入手,为疗效提高和新药研发打下基础;三是研究疾病辨证规律,研究分析证素辨证体系、症状、病机、病位等;四是针灸取穴规律研究[7]。常用的数据挖掘技术主要有以下几种。
  1.1  频数分析
   频数统计分析方法简单、基础,在最初的医案分析统计中起到非常重要的作用,可直观地看出频数分布、集中趋势、离散趋势等。薛道金等[8]检索出与中医治疗脑瘤经验及验案相关文献60篇,频数分析认为用药多温性,苦、咸,归肝、脾、肾经,推测脑瘤发病多与痰湿、瘀、虚或肝风有关。徐艳等[9]研究了1949-2015年112位名老中医治疗黄疸医案,结果发现,黄疸病因病机的认识从“湿邪为患”向“瘀血致黄”变化,其治法从以祛湿为先到采用寒温并用及攻补兼施、注重活血化瘀药运用等。部爱贤等[10]收集了100篇肺癌医案文献,分析认为肺癌典型症状为咳嗽、胸痛、咳血,以痰、毒、瘀及三者交織的邪气为主,正气虚以气虚、阴虚、气阴两虚为主,时有虚实夹杂。
  1.2  关联分析
   关联分析是一种简单、实用的分析技术,在信息载体中,查找存在于项目集合、对象集合之间的频繁模式、关联、相关性或因果结构,从大量数据中发现2个或多个变量之间的相关联系。邓庆平等[11]通过收集51篇当代名老中医治疗肺结核医案进行关联分析,提出治疗阴虚内热、肺液不足型肺结核的基本方。郑丹文等[12]通过对当代名老中医治疗流行性感冒医案72则进行分析,发现《中医内科常见病诊疗指南》中未提及的治疗方法包括暑邪用香薷,发热症状重则用黄芩、柴胡,痰多色黄则加黄芩、天花粉等。陈婷婷等[13]选取40部古籍医案,整理分析中国古代治疗抑郁症使用的150首方剂,发现药物的主要关联组合为半夏配生姜、茯苓,苍术配栀子、香附,与《丹溪心法》的“越鞠丸治六般郁,气血痰火食湿困”相吻合。   1.3  回归分析
   回归分析是指确定2种或2种以上变量间相互依赖的定量关系的一种统计方法,它可表明自变量和因变量间的显著关系,还可表明多个自变量对1个因变量的影响强度,可实现预测事物发展趋势。主要的回归分析方法包括线性回归、非线性回归、Logistic回归、回归树、人工神经网络等[7]。张定祺等[14]检索获得63篇文献,通过用药频次统计和Logistic多元逐步回归,分析中医治疗耳鸣用药规律,为临床治疗耳鸣用药提供参考。张平等[15]对140例轻、中度稳定期慢性阻塞性肺疾病(COPD)患者通过多分类Logistic回归分析,观察治疗组和对照组患者治疗前后临床症状及生存质量评分变化,发现健脾化痰方配合温灸中脘治疗肺脾气虚型轻、中度稳定期COPD具有显著疗效。唐黎群等[16]对120例正常高值血压人群和对照组120例正常血压人群进行多元回归分析,正常高值血压人群中医体质类型分为平和型、气虚型、阴虚型、阳虚型。
  1.4  聚类分析
   聚类分析是依据研究对象的特征对其进行分类,减少研究对象数目的方法。它可作为一个独立的工具获得数据的分布状况,也可作为其他算法的预处理步骤。欧阳帅领等[17]对100例老年期抑郁症患者进行聚类分析,结果显示老年期抑郁症患者中虚证以气虚、血虚、阴虚与阳虚为主,实证以气郁、血瘀和痰火为主。陈琴等[18]收集62例干燥综合征患者治疗处方,通过分析将治疗干燥综合征常用的药物分成6类,为干燥综合征不同证候的诊疗提供药物组合参考。寇永锋等[19]对770例类风湿关节炎患者进行聚类分析,明确风湿性关节炎临床常见证型及各证型主要的症状,为类风湿关节炎证候量化提供了依据。
  1.5  主成分分析和因子分析
   主成分分析和因子分析是一种降维、简化数据的技术。主成分分析可通过矩阵变换将数据分成多个主成分,每个主成分与原变量间存在线性组合关系,但其提取出来的主成分无法清晰地解释其代表的含义,而因子分析可弥补这一不足,因子分析通过研究众多变量间的内部依赖关系,并用少数几个抽象变量表示基本的数据结构,其称作“因子”,能反映原来众多变量的主要信息,因此二者具有包含与扩展的关系。刘瑜等[20]通过主成分分析和因子分析功能性腹胀患者300例,发现功能性腹胀病位在肝、脾、胃、肠,病机有阴阳、虚实、寒热之分,基本病机为胃失和降。郭超峰等[21]通过因子分析的降维方法提取中老年高血压患者主要病理因子,中老年高血压病病理要素主要与痰湿或浊痰、肝肾阴虚、瘀血、阳虚寒凝血脉、阴虚内热、心脾气血两虚、肾中精气亏虚、肾阳虚衰、肾阴亏虚、肝火亢盛等病理因素有关。
  1.6  贝叶斯网络
   贝叶斯网络是基于概率推理的数学模型,可推理不完整的数据集,善于解决复杂不确定性和关联性引起的故障,可重复,具有较高的客观性。张霆等[22]对225例肺癌患者证候进行分析,建立贝叶斯网络模型,所得函数模型与临床实际基本吻合,对模型的一致性进行检验,发现理论判别与实际资料具有较高的总吻合率。陈曦等[23]通过贝叶斯网络技术的隐结构模型在中医辨证思维中的应用,设计了中医辅助诊疗系统。
  1.7  粗糙集理论和支持向量机
   粗糙集理论是处理不精确、不一致等各种不完整信息的有效工具,其优点是不需要任何先验知识和易用性。支持向量机是监督学习模型,可根据有限的信息在模型的复杂性和学习能力之间寻求最佳折中,可用于分类和回归分析。孙继佳等[24]对293例中医肝硬化患者的数据,采用粗糙集与支持向量机结合的数据挖掘方法进行中医临床肝硬化的辨证研究,分类结果辨证正确率在71.3%~84.4%。
  2  存在问题
  2.1  数据预处理困难
   数据预处理包括数据清洗、数据集成、数据转换和数据消减。传统的传承方式是纸质记录和言传身教,众多医案缺乏完整性。中医医案具有明显个体性、创新性、实用性、文学性、地域性等特点[25],故医案具有一定的复杂性。其来源于临床实践的真实记录,内容仅在结构及要素上明确,对于医案术语、计量单位、药物名称等内容未作明确要求,古代医案多用相对晦涩的文言文,我国地域辽阔、方言多,大部分术语具有笼统、模糊的特性[26],这就为数据的预处理增加了难度,必须进行医案文献的标准化、规范化,以适应大数据时代发展的要求。
  2.2  数据挖掘技术局限
   伴随着现代化技术的发展,使用数据库对中医医案信息进行存储、查找、分析和挖掘逐渐成为主要手段[27],但目前的现状是数据库规模小、重复建设、缺乏统一标准、检索功能不完善[28]。面对具有不确定性、数据表述多样性、抽象性的中医数据[29],数据挖掘技术虽广泛应用于中医药领域,但适合应用于中医医案研究的数据挖掘技术较为单一,仍以频数分析为主,不能实现定量和定性的综合分析。
  2.3  研究人才不足
   目前,数据挖掘研究者中兼有计算机知识和中医知识储备的复合型人才较少,使中医医案数据挖掘不可避免地存在局限,无法很好地兼融二者的思考方式,更好地利用现代化信息技术。现有数据挖掘研究多“重方法,轻理论”,研究的重点以疾病的用药分析最多,基础理论研究相对较少,对研究所得的结果缺乏深度的解读分析。
  3  對策
   为解决现存的问题,需要多学科交叉。面对中医数据的动态特征,尝试运用最新的人工智能技术探索挖掘中医医案数据,如人工神经网络和基于案例的推理等技术,建立更加准确、实用、高效的医学数据库,以实现定量和定性的分析。
   人工神经网络是对人脑神经系统的信息处理进行抽象模拟。早期中医药数据挖掘研究中已有运用,随着算法的进步,在医学方面的运用更加娴熟。因为人体的生理和病理的复杂性和不可预测性,使获取的数据存在着十分复杂的非线性关系,人工神经网络在处理这些复杂的非线性关系上非常适用。人工神经网络具有并行处理能力,可模拟人脑的分布存储,容错能力、自适应性,其缺点是要求数据集要充分,否则会影响准确度。赵亮等[30]将基于LM算法的BP神经网络用于胃脘痛中医辨证,预测病例数相对足够多的“肝胃不和”和“胃阳虚”证型的准确率和诊断准确率均在95%以上。    案例推理是人工智能领域研究的热点,源于认知心理学,推理过程模拟人类解决问题的方式,即当遇见新问题时,从以往的案例中选择一个与现在问题最接近的旧案例,根据新问题的情况将旧案例的解决方法进行改进,作为新问题的解决方法,而新问题的解决方法又会被记录在数据库中。它的特点是可将定量分析和定性分析相结合,具有动态的数据库,而这正是现代中医医案挖掘中所缺少的。杨丽等[31]建立了基于案例推理的中医辨证论治系统。
  4  小结
   数据挖掘技术对中医医案中隐藏信息的挖掘与利用得到越来越多的关注。中医医案是每位医者学术思想的精华所在,医案研究作为中医临床最基础的研究,是中医学理论体系架构的来源之一。现有数据挖掘在中医医案研究中的应用尚处于起步阶段,随着技术的更新与完善,应用范围在逐渐扩大。目前人工智能主要应用于中医证候分析、计算机中医辅助诊断、计算机中医辅助治疗等方面,而有关中医医案数据挖掘研究较少。今后可利用人工智能方法,建立新的有效的模型和算法,为中医学理论体系发展提供支持,为探索中医发展途径提供新的思路。
  参考文献:
  [1] 秘红英,李彩云,李红蓉,等.中医医案的分析方法[J].中国实验方剂学杂志,2017,23(13):226-230.
  [2] 黄利兴,周小青.数据挖掘技术在中医医案领域的应用进展[J].江西中医学院学报,2010,22(1):92-94.
  [3] 黄庆生.计算机数据挖掘技术的开发及其应用探究[J].科学技术创新,2018,22(11):66-67.
  [4] 李鑫颉,贾振华,吴以岭.数据挖掘方法在中医医案研究中的现状分析[J].中国中医基础医学杂志,2012,33(9):4016-4020.
  [5] MICHELINE K.数据挖掘概念与技术[M].北京:机械工业出版社,2012:3-4.
  [6] 刘广,刘鹏.数据挖掘技术在中医诊疗关联研究的展望[J].医学信息, 2011,24(9):5616-5617.
  [7] 潘宝峰,张天嵩,李秀娟,等.数据挖掘技术在中医医案研究中的运用[J]. 中国中医药信息杂志,2013,20(2):104-106.
  [8] 薛道金,黄涛,沈有碧.基于数据挖掘的当代脑瘤中医医案诊治规律分析[J].中华中医药杂志,2016,31(7):2846-2849.
  [9] 徐艳,张涛,熊焰,等.现代名老中医黄疸病医案用药规律研究[J].新中医,2017,49(1):200-202.
  [10] 部爱贤,张光荣,王立国,等.数据挖掘技术在名老中医肺癌医案中之应用研究[J].中医临床研究,2016,8(1):1-3.
  [11] 邓庆平,周志添,刘擎,等.当代名老中医治疗肺结核医案的中药配伍及方证规律的关联分析[J].新中医,2013,45(3):156-158.
  [12] 郑丹文,刘擎,金晓阳,等.当代名老中医治疗流行性感冒医案72则的中药配伍及方证规律关联分析[J].时珍国医国药,2013,24(7):1767- 1769.
  [13] 陈婷婷,刘雅芳.基于数据挖掘技术的中国古代抑郁症医案用药规律分析[J].中医药学报,2016,44(3):16-20.
  [14] 张定祺,马文翰,梅志刚,等.基于文献与Logistic多元逐步回归分析的中医治疗耳鸣用药规律研究[J].中国中医药信息杂志,2015,22(2):34-37.
  [15] 张平,吴欢,刘泉,等.健脾化痰方配合温灸中脘治疗轻中度稳定期慢性阻塞性肺疾病临床疗效及相关影响因素分析[J].中国中医药信息杂志,2014,21(3):29-32.
  [16] 唐黎群,陈明,黄惠玲,等.正常高值血压人群中医体质因素的Logistic回归分析[J].中华中医药学刊,2013,31(10):2210-2212.
  [17] 欧阳帅领,郭蓉娟,崔丽凤,等.100例老年期抑郁症中医常见症状聚类分析[J].北京中医药大学学报,2010,17(2):4-7.
  [18] 陈琴,李盟麟,杨娟.中医治疗干燥综合征方药的聚类分析[J].中华中医药杂志,2015,30(7):2601-2603.
  [19] 寇永锋,赵新秀.类风湿性关节炎临床证型研究[J].中华中医药学刊,2010,28(4):835-837.
  [20] 刘瑜,符思,张喆.基于主成分分析和因子分析法的功能性腹胀证候特征研究[J].中华中医药杂志,2017,32(8):3487-3493.
  [21] 郭超峰,马晓聪,岳桂华,等.632 例中老年高血压病患者中医临床症状的因子分析[J].时珍國医国药,2015,26(7):1678-1681.
  [22] 张霆,陈波,徐涛,等.基于贝叶斯网络的肺癌证候研究[J].中国中医药科技,2014,21(6):599-603.
  [23] 陈曦,刘海昀,任现志.基于贝叶斯网络的中医辅助诊疗系统研究新进展[J].辽宁中医药大学学报,2010,12(10):143-144.
  [24] 孙继佳,苏式兵,陆奕宇,等.基于粗糙集与支持向量机的中医辨证数据挖掘方法研究[J].数理医药学杂志,2010,23(3):261-265.
  [25] 左瑶瑶,袁锋,陈守强,等.中医医案特色探讨[J].山东工会论坛, 2018,24(3):107-109.
  [26] 高殿璞,王映辉,张润顺,等.中医医案规范化研究述评[J].中国中医药信息杂志,2018,25(5):131-135.
  [27] 田瑞,马路.中医病案数据库元数据方案的设计[J].中华医学图书情报杂志,2014,23(10):66-69.
  [28] 荣士琪,杨朝晖.中医古籍数据库数字化建设发展综述[J].科学技术创新,2015,19(11):174-175.
  [29] 梁杨,丁长松,黄辛迪,等.大数据环境下的中医药数据管理策略[J].中国中药杂志,2018,43(4):840-846.
  [30] 赵亮,张烨,曹悦,等.基于Levenberg-Marquardt算法的胃脘痛BP神经网络辨证模型研究[J].成都中医药大学学报,2018,41(2):97-101.
  [31] 杨丽,周雪忠,毕斓馨,等.基于案例推理的中医临床诊疗决策支持系统[J].世界科学技术-中医药现代化,2014,16(3):474-480.
  (收稿日期:2019-03-28)
  (修回日期:2019-05-05;编辑:华强)
  基金项目:上海市卫生和计划生育委员会中医药科技创新项目(ZYKC201601003)
  通讯作者:郭晶磊,E-mail:guojinglei@aliyun.com
转载注明来源:https://www.xzbu.com/1/view-15182048.htm