您好, 访客   登录/注册

基于TextRank的医院信息智能处理方法研究

来源:用户上传      作者:刘宇枝,陈博,赵鑫,李翠荣

  摘要:针对海量相关信息检索准确性和可靠性难以保障的问题,结合信息化建设背景,提出一种基于文本挖掘的智能信息检索处理方法。搭建医疗信息检索的整体框架,包括物理框架、网络框架、功能模块;其次对问答系统模块、信息检索模块、数据处理模块进行详细设计,并提出基于TextRank的摘要检索算法,以提高文本检索性能;最后,搭建系统测试环境,对系统的功能性和非功能性进行测试并展现该系统的运行效果。结果表明,该信息检索系统可为用户获取大量化学数据,以及大量的相关及化学科普信息,说明该信息检索系统设计方案可行。
  
  关键词:信息化建设;智能信息处理;文本挖掘;TextRank
  
  中图分类号:TP399
  文献标志码:A文章编号:1001-5922(2022)09-0178-05
  ResearchonhospitalinformationintelligentprocessingmethodbasedonTextRank
  LIUYuzhi,CHENBo,ZHAOXin,LICuirong
  
  (1.TheThirdAffiliatedHospitalofAirForceMilitaryMedicalUniversity,Xian710032,China;
  2.ChinaMobileTietongCo.,Ltd,Beijing100038,China;
  3.XianRedCrossHospital,Xian710061,China;
  4.TheFirstAffiliatedHospitalofShandongFirstMedicalUniversity,Jinan250014,China)
  Abstract:Aimingattheproblemthattheaccuracyandreliabilityofmedicalinformationretrievalaredifficulttobeguaranteedintheprocessofcurrentmedicalinformationretrieval,thispaperproposesanintelligentinformationretrievalprocessingmethodbasedontextminingincombinationwiththebackgroundofcurrentinformatizationconstructionofmajorhospitals.Firstly,theoverallframeworkofmedicalinformationretrievalisbuilt,includingphysicalframework,networkframeworkandfunctionalmodules.Secondly,theQ&Asystemmodule,informationretrievalmoduleanddataprocessingmodulearedesignedindetail,andtheabstractretrievalalgorithmbasedonTextRankisproposedtoimprovetheperformanceofthesystemfortextretrieval.Finally,thesystemtestenvironmentissetuptotestthefunctionalityandnonfunctionalityofthesystemandshowtheoperationeffectofthe
  system.Theresultsshowthatthemedicalinformationretrievalsystemprovidesgreatconvenienceforuserstoobtainmedicalinformationandpopularscienceknowledge,whichindicatesthatthedesignschemeofthemedicalinformationretrievalsystemisfeasible.
  
  Keywords:medicalinformatizationconstruction;intelligentinformationprocessing;textmining;TextRank
  随着互联网技术的发展,线上智能化服务涉及越来越多的行业。为让用户在线上精准地获取所需相关知识和相关信息,需不断优化信息的检索性能。因此,围绕相关知识和相关信息的检索,提高信息化处理效率,很多学者提出不同的方法,如引入Hadoop云框架对信息进行存储和检索,以提高信息处理效率[1];引入文本挖掘算法与Spark架构,以提高信息检索效率。而实际应用发现,在智能化和信息化不断普及的今天,人们更多的喜欢通过网络获取健康科普知识[2]。但遍历发现目前对信息的检索多为对原始数据的集成和展示,且可靠性和准确性难以保证。因此,基于以上问题,以及结合当前信息化建设背景,本文提出一种基于文本挖掘的信息检索系统,在方便用户查找相关信息的同时也提高检索的准确性和可靠性。
  1系统总体架构设计
  1.1逻辑架构设计
  本文基于SpringCloud框架来构建微服务平台,主要包括数据检索、数据运维、问答服务、监控告警、用户中心和权限管理这6大服务器。同时把基于文本挖掘的信息检索系统分为前后2个部分,前端以CSS、JavaScript、jQuery来对数据进行展现,后端以微服务来对后端业务进行处理[37]。基于文本挖掘的信息检索系统分层结构如图1所示。

nlc202210121019



  由图1可知,系统主要分为5层,分别为资源层、服务层、接口层、Web层、访问层。其中,资源层包括储存数据的主要工具和备份工具;服务层则采用JSON格式对系统中各功能板块之间的逻辑进行通信;接口层则通过APIGateway将所有的入口的流量转发给后端的服务器并进行限流、权限、缓存等拓展。
  1.2物理架构设计
  物理架构是指系统的部署架构,基于Docker实现系统内部的快速部署,有效解决系统的运转和维护。Docker在系统运作中,是以Namespace和Cgroups技术来把系统中的单个应用装在沙盒中进行运行,应用之间相互隔离[89];具体架构设计如图2所示。
  1.3功能模块
  信息检索系统主要围绕着着数据处理模块、问答系统模块和信息检索模块3大模块进行设计。其数据处理主要是对数据的准备;问答系统则是对问答数据的获取和理解;信息检索则是为用户提供智能化的信息化的检索服务。具体功能模块如图3所示。
  2系统模块详细设计
  2.1数据处理模块设计
  [HT]数据处理模块主要是从众多的信息网站中获取和储存数据信息,并以此作为该系统的数据信息来源,为用户的信息检索提供有效的数据信息基础。该模块主要包括数据爬取、整合和补充3个部分,数据处理的具体流程如图4所示。
  2.2问答系统模块设计
  [HT]问答系统模块是指在用户提问后,该模块自动在系统中匹配该问题的相关数据并回答提问,具体流程如图5所示。
  (1)用户主动输入问题,系统自动获取用户提问并对问题进行预处理,然后迅速访问ES缓存,搜寻ES缓存中是否有问题的记录,有就直接显示,没有就开始访问问答系统模板;(2)问答系统对用户
  提出的问题进行意图和实体识别,获取相关意图的
  关键词,生成ES检索语句检索获得相同或相关的数据信息来作为候选的问题集并返回;(3)问答系统自动将用户输入的问题和候选的问题集进行匹配,并进行排序;(4)把相似的ID列表和得分列表进行数据缓存,然后再返回到已经排序的数据结果集中。
  2.3信息检索模块设计
  信息检索模块主要是把获取的相关数据存储在ElasticSearch中,为用户信息检索系统提供数据服务,主要包括3大板块,分别为索引板块、搜索模块和用户模块。其中,索引板块是对用户的提问进行索引的建立、数据的入库以及数据的维修维护,包括其中工作人员及物品等信息数据和系统中科普文章、问答问题信息等文本数据;搜索模块是将获取的数据组织起来,并完善数据检索服务,以便为用户的提问进行检索需求。主要是通过用户的输入提问进行解析,并把解析后的搜索进行分布式的搜索,在各个ES节点进行分布式检索索引文件并对结果进行排序,然后显示给用户;用户通用模块主要是用户使用,在用户信息的检索过程中对信息的收藏、评论、点赞操作并准确记录相关操作。搜索模块的流程示意如图6所示。
  3自动搜索模块算法设计
  为提高搜索模块的检索效率,运用自动摘要算法TextRank来进行搜索。具体步骤为[1014]:
  3.1对文本进行分词分句等预处理并进行特征词的选择
  通过对文本进行分词分句等预处理后,可以得到以下3项内容:(1)文本的集合X=p1,p2,...,pi,其中pi表示排序后的句子序列。(2)文本特征词的集合Xkey={key1:tn1,key2:tn2,...,keyj:tnj},其中,keyi表示单个特征词,而tnj表示为keyi在文本集合X中所出现的词频。(3)句子的特征词集合为Pij={keyi1:numi1,keyi2:numi2,...,keyij:numij}。
  在对句子和文本特征词的选择时,采用的是TF-IDF权值法来对该系统中句子和本文的特征词进行评估。在运用TF-IDF权值法时,根据本文的长度规范权值,以词频对数来代替词频。特征词的权值计算公式为:
  ws(keyi)=lg(tni+1)×lgnnkeyi∑jj=1(lg(tni+1)×lgnnkeyj)2(1)
  式中:n表示特征词的总个数;nkeyi表示在keyi词典中出现的次数;ws(keyi)表示特征词的权重。
  对特征词的权值计算后,可以得到权值较高的特征词,然后对权值进行排序,构成文本中所对应的关键词列表。
  3.2建立TextRank图模型
  以文本的集合X中节点pi和SDnxn中特征词的
  边权重wij为边,共同构建出无向加权的TextRank图模型,进而计算节点的权重为:
  ws(pi)=1-dn+d×∑pj∈In(pi)wij∑
  pk∈Out(pj)wjkws(pj)(2)
  
  式中:wjk表示节点pi和节点pj的连接权重;d表示阻尼系数,一般取值为0.85;In(pi)[JP2]表示指向节点pi[LL]
  [HJ1.65mm]的
  所有点的集合;Out(pj)表示节点pj连接出的所有节点的集合;ws(pi)表示节点pi的最终权重排序。[JP]
  要计算其中的连接权重,则根据余弦函数公式:
  wij=pi・pjpi・pj(3)
  4实验验证
  4.1测试环境
  本研究运用Centos7.3系统作为该系统测试环境的系统服务器,以128G,CPU64核作为内存,以谷歌、IE、搜狗作为测试浏览器。其中的数据处理软件的版本分别为:ElasticSearch6.1.2版本,JDK1.8版本,MySQL5.7.17版本。测试浏览器为谷歌、IE[15]。
  4.2功能性测试

nlc202210121020



  本研究以黑盒测试原理为基础,对该系统的功能性进行测试,以检查该信息检索系统能否满足功能性需要,主要包括数据处理、索引模块、搜索模块的功能性测试[1619]。功能性测试用例结果如表1所示。
  4.3非功能性测试
  除了对信息检索系统进行功能性测试外,还进行非功能性测试;运用Meter、Selenium和Kibana工具来辅助完成非功能性测试。非功能测试用例结果如表2所示。
  5结语
  本文通过对数据处理模块、问答系统模块和信息检索模块优化创新后设计了完整的信息检索系统,该系统能够收集获取相关专业网站的信息数据,并经过系统的自动提取、过滤、整合后形成系统的基础数据和文本的价值,使系统获取的数据信息直观有效,便于用户的查询和获取,为信息化和智能化提供有效支撑和保障。该研究说明,重新设计的信息检索系统具有较强的实用价值,其是可行的。
  
  【参考文献】
  [1]吴振君.基于Hadoop的医院智慧医疗信息管理系统设计[J].信息技术,2019,43(12):6266.
  [2]聂泽姝.基于文本挖掘的医疗信息检索系统的设计与实现[D].北京:北京交通大学,2020.
  [3]路冰.医院信息化建设中智能信息处理技术的运用[J].中国科技信息,2021(9):111112.
  [4]吴宗友,白昆龙,杨林蕊,等.电子病历文本挖掘研究综述[J].计算机研究与发展,2021,58(3):513527.
  [5]吴广玉.基于文本挖掘的在线医疗社区患者评论关注点研究――以好大夫在线为例[J].科技和产业,2021,21(1):5660.
  [6]曹端文,白薇,孙文雄,等.一种基于医院信息管理系统的临床试验免费诊疗信息模块设计和应用[J].中国临床药理学杂志,2020,36(15):23652367.
  [7]胡佳慧,赵琬清,方安,等.基于医疗大数据的临床文本处理与知识发现方法研究[J].中国数字医学,2020,15(7):1113.
  [8]王艳芳.基于文本挖掘方法的中国中医药产业政策分析[J].中国药物评价,2020,37(3):237240.
  [9]宣君芳,陈昌贵,李自明,等.我院医疗废物信息化管理系统的设计与应用[J].中国现代医生,2019,57(32):134137.
  [10]姚奕,杨帆,杜晓明,等.基于主题聚类的动向情报自动摘要研究[J].国防科技,2022,43(3):7683.
  [11]周蔚,王兆毓,魏斌.面向法律裁判文书的生成式自动摘要模型[J].计算机科学,2021,48(12):331336.
  [12]孙宝山,谭浩.基于ALBERTUniLM模型的文本自动摘要技术研究[J].计算机工程与应用,2022,58(15):184190.
  [13]T金源,刁宇峰,杨亮,等.基于BERTSUMOPN模型的抽取生成式文本自动摘要[J].山东大学学报(理学版),2021,56(7):8290.
  [14]杜嘻嘻,程华,房一泉.基于优势演员评论家算法的强化自动摘要模型[J].计算机应用,2021,41(3):699705.
  [15]贾占强,梁保卫,王江辉,等.基于多信号流图模型的典型无人机测控系统测试性优化设计方法研究[J].测控技术,2022,41(6):2632.
  [16]牛成勇,吴昆伦,周祥祥,等.不同光照不同偏置率碰撞场景的AEB系统测试与评价[J].汽车安全与节能学报,2022,13(2):269275.
  [17]杨倩雯,韩建刚,刘江辉.拖拉机提升系统测试台开发及应用研究[J].拖拉机与农用运输车,2022,49(3):4042.
  [18]盛伟峰.基于黑盒测试技术的有线电视收视用户标签化系统测试方法研究[J].广播电视网络,2022,29(5):6971.
  [19]钱巨,王寅,程浩,等.基于场景模型的DDS架构一体化舰船任务系统测试[J].软件学报,2022,33(5):17111735.

nlc202210121020




转载注明来源:https://www.xzbu.com/1/view-15440869.htm

相关文章