您好, 访客   登录/注册

基于随机森林的居民健康评估模型

来源:用户上传      作者:

  摘要:随着我国经济水平的快速发展和人民生活水平的不断提高,特别是新时期健康卫生工作方针由“以治病为中心”向“以健康为中心”转变的背景下,人们对生活质量、卫生服务和身心健康提出了更高的要求。本文基于大健康学科前沿成果,分析了“失配性”现象的形成机理并将饮食、生活、工作、医疗、环境作为输入层,社会公共卫生和居民个体作为输出层,构造基于随机森林(Random Forest, RF)算法的社会公共卫生与环境和居民个体评估模型;然后采用模糊等级划分法设定五种评估等级,并使用指派法建立隶属度函数来确定五个因素对五种评估等级的影响;最后通过比较模型输出值和隶属度函数空间值的大小,及时发现存在的问题,并提出解决类似“失配性”慢性非传染疾病以及环境污染等问题的可行方案。
  关键词:居民健康; 随机森林; 模糊等级划分法; 隶属度函数
  中图分类号: TP391        文献标识码:A
  文章编号:1009-3044(2020)16-0033-03
  随着经济的快速发展,人们对衣、食、住、行等方面提出了更高的要求,如医疗模式从传统的单一救治模式逐渐向“防、治、养”的大健康模式转变[1-5]。但健康问题受到饮食习惯、生活方式、工作压力和医疗保障等多方面的影响,且患慢性病、老年病、肥胖病以及亚健康等问题的人数逐年递增,给国民健康带来了非常大的困扰[6-8]。为此建立一种能够支持健康水平动态测控的居民健康评估模型迫在眉睫。
  1 算法设计与分析
  1.1 随机森林模型
  根据大健康学科前沿研究成果,通过分析“失配性”现象的形成机理[9],将饮食、生活、工作、医疗、环境作为输入层,社会公共卫生和居民个体作为输出层,构造基于随机森林算法的居民健康评估模型。随机森林构造过程如图1所示。
  随机森林是由一组决策分类器[{h(x,?t),t=1,2,...,T}]组成的集成分类器,其中[?t]是服从独立分布的随机变量,T表示随机森林中决策树的个数,每个决策树分类器通过投票的方式来决定最优的分类结果[10]。具体计算如公式(1)所示。
  上述过程实现了随机森林模型的构造,但模型的训练需要多个城市不同状况下居民的健康数据,本文选择北京、上海、西藏、兰州和成都等地的居民健康数据进行模型的训练。
  考虑到模型输入时各因素数据不统一的问题,采用以下五种计算方式实现数据的归一化处理。
  (1)饮食方面采用摄入能量与体重之间的关系进行计算,体质指数(Body Mass Index, BMI)如公式(5)所示。
  [BMI=BWST2]                     (5)
  (2)生活方面采用国民幸福指数(National Happiness Index, NHI)進行计算,如公式(6)所示。
  [NHI=IIGE×UR×IN]                (6)
  (3)工作方面采用失业率表示,如公式(7)所示。
  [UR=UYNB+UY]                  (7)
  (4)医疗方面采用医保普及率表示。
  (5)环境方面主要考虑到空气质量,等标排放量Pi(m3/h)计算如公式(8)所示。
  [Pi=Qi/Coi×109]                (8)
  其中,BW表示身高,ST表示体重;II表示居民收入的递增,GE表示基尼系数,UR表示失业率,IN表示通货膨胀;UY表示失业人数,NB表示在业人数;[Qi]表示第i类污染物在单位时间内的排放量,[Coi]表示第i类污染物空气排放质量标准。
  1.2 随机森林算法描述
  随机森林算法作为基于机器学习的一种集成分类算法,结合了多个决策树的分类效果,最终通过“投票”方式选择出票数最多的类别作为最终的分类[11]。每一棵树构造流程如算法1所示。
  [算法1:随机森林算法 Step1 用N表示训练样本个数,M表示特征数目; Step2 输入特征数目[m(m<M)],用于确定决策树节点的决策结果; Step3 从N个训练样本中有放回取样N次,并将未抽到的样本作为预测集,评估误差; Step4 对于每个节点,随机选择m个特征,并根据该类特征选择最佳分裂方式; Step5 每棵树都会完整成长而不会剪枝。 ]
  3 实验与分析
  3.1 实验环境
  实验环境如表1所示。
  3.2 实验结果与分析
  为验证本文算法的性能,从国家卫生部和国家统计局等网站收集与整理120000条数据作为随机森林模型的训练与测试数据,设置模型的最大训练次数epochs=120,learning rate=0.01,具体训练过程如图2(a)和(b)所示。
  通过图2(a)可知,在训练与测试初期,模型的准确率随着训练步数的增加而快速上升,且训练准确率高于测试准确率;由图2(b)可知,在训练初期模型的loss值随着训练步数的增加快速下降,且训练loss值低于测试loss值,表明该模型具有较好的训练与测试效果。
  图3给出了随机森林模型的回归检验,其中红色表示训练值,黄色表示验证值,蓝色表示测试值,当R=0.9943、0.9952和0.9935时符合回归检验,如图3(a)、(b)和(c)所示。通过观察图3(d),当R=0.9958时,模型在训练、测试和验证集上取得最好的吻合效果,表明本文模型具有可行性。   用于模型输入的五个指标存在动态变化的特点,本题针对这一问题采用指派法,通过建立梯形函数和三角函数相结合的隶属度函数,求解出划定评价社会公共卫生与环境和居民个体的五个等级。隶属度函数关系如图4所示。
  3.3 依据评估模型提出可行性方案
  为评估本文提出模型的有效性,现以西安市为例。将五个指标作为模型的输入,社会公共卫生和居民个体作为模型的输出,分别计算得到社会公共卫生和居民个体的评价为0.58和0.76。
  根据表2评价等级与区间范围对应关系,可得公共卫生为中等,说明西安市需要在环境和医疗等方面进行调控。在环境方面可以通过控制水质因子,利用工业污染物排序指标ISE控制废物排放量,有效降低患有癌症、糖尿病和高血压、高血脂等疾病的人数。
  根据表2评价等级与区间范围对应关系,可得居民自身评价良好,说明西安市居民对当地饮食、工作和生活等方面的把控能力较好。若想提升评价等级指数,在饮食方面可以通过计算标准体重与身高对应能量摄入量,在工作方面可以通过运动等方式解压,全面提升居民幸福指数。
  通过计算随机森林模型输出值与隶属度对应的区间范围,及时发现问题,并就当前问题提出合理的解决方案,为“健康行动计划”提供有力支持,此外,根据建立的模型和经验有效提出解决类似“失配性”慢性非传染疾病以及环境污染等问题的可行方案。
  4 结语
  近年来,利用机器学习算法预测居民健康指数成为研究热点,本文在先验知识的基础上,提出了一种基于随机森林的居民健康评估模型,为解决类似“失配性”慢性非传染疾病以及环境污染等问题提供一种新的研究思路。
  参考文献:
  [1] 桑祎莹,黄仕鑫,易静,等.基于随机森林和误差反向传播神经网络的糖尿病性周围神经病变患病风险研究[J].解放军醫学杂志,2018,43(10):877-881.
  [2] 俞竣瀚. 基于极限学习机马尔科夫模型的结果健康状态预测研究[D]. 西安: 长安大学, 2016.
  [3] 彭炎亮, 李旺根, 刘娇. 基于动态权重和模糊综合评价法的健康评估模型[J]. 计算机系统应用, 2017, 12(1):37-43.
  [4] 朱凤梅. 基于模糊综合评价方法的医疗卫生体制改革评价研究[J]. 中国卫生统计, 2016, 33(2):267-270.
  [5] 雷顺群. 论大健康理念形成的立论基础和根据[J]. 中医杂志, 2016, 57(15):1261-1265.
  [6] 李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报(昆虫知识), 2016, 50(04):1190-1197.
  [7] 明勇, 王华军. 模糊隶属度融合多层前馈神经网络的CBIR方法[J]. 计算机测量与控制, 2015, 23(3):903-906.
  [8] 任鹏飞, 秦贵和. 具有交通规则约束的改进Dijkstra算法[J]. 计算机应用, 2015, 35(9):2503-2507.
  [9] 常振波, 卢文喜, 辛欣. 基于灵敏度分析和替代模型的地下水污染风险评价方法[J]. 中国环境科学, 2017, 37(1):167-173.
  [10] 李莉琼, 刘漳辉, 郭昆. 基于灰关联分析的模糊C均值算法[J]. 福州大学学报:自然科学版, 2016, 44(2):170-175.
  [11] 王小强. 基于随机森林的亚健康状态预测与特征选择方法研究[J]. 计算机应用与软件, 2014, 31(1):296-298, 307.
  【通联编辑:唐一东】
转载注明来源:https://www.xzbu.com/8/view-15315014.htm