灰色马尔科夫模型在我国肺结核发病率预测中的应用
来源:用户上传
作者:
[摘要] 目的 探讨应用GM(1,1)灰色预测模型和GM-Markov模型在全国肺结核发病率预测中的可行性,为制定措施加快降低结核病发病率提供参考。方法 收集2007—2017年全国肺结核数据,建立模型拟合2007—2016年数据并预测2017年全国肺结核发病率,评價两个模型的拟合及预测效果。 结果 拟建立的GM(1,1)模型为x(1)(k+1)= -1 960.635 9e(-0.0441k) +2 049.185 9;GM(1,1)模型与GM-Markov模型的拟合平均相对误差分别为2.08%和1.11%;预测2017年全国肺结核发病率相对误差分别为6.06%和3.40%。GM-Markov模型的拟合和预测效果优于GM(1,1)模型。 结论 GM-Markov模型较GM(1,1)灰色预测模型更适用于预测我国肺结核发病率。可借助该模型预判我国肺结核流行趋势 ,指导相关卫生资源分配。
[关键词] 肺结核;GM(1,1);Markov;预测
[中图分类号] R19 [文献标识码] A [文章编号] 1672-5654(2019)02(c)-0176-04
Application of Grey Markov Model in Predicting the Incidence of Tuberculosis in China
WANG Ya-wen1, SHEN Zhong-zhou1, YAN Bao-hu1, YANG Yin2
1.School of Public Health, Peking Union Medical College, Beijing, 100730 China; 2.Department of Pathogenic Biology, Institute of Basic Medical Sciences, Chinese Academy of Medical Sciences, Peking Union Medical College, Beijing, 100005 China
[Abstract] Objective To explore the feasibility of applying GM(1,1) gray prediction model and GM-Markov model in the prediction of tuberculosis incidence rate in China, and provide reference for formulating measures to accelerate the reduction of tuberculosis incidence. Methods The national tuberculosis data from 2007 to 2017 were collected, the model was fitted to the data of 2007 to 2016 and the incidence of tuberculosis in 2017 was predicted. The fitting and prediction effects of the two models were evaluated. Results The proposed GM(1,1) model was x(1)(k+1)=-1 960.635 9e(-0.0441k)+2 049.185 9; the average of the GM(1,1) model was compared with the GM-Markov model errors were 2.08% and 1.11%, respectively; the relative errors of the national tuberculosis incidence in 2017 were predicted to be 6.06% and 3.40%, respectively. The fitting and prediction effects of the GM-Markov model were better than the GM(1,1) model. Conclusion The GM-Markov model is more suitable for predicting the incidence of tuberculosis in China than the GM (1,1) gray prediction model. This model can be used to predict the trend of tuberculosis in China and to guide the allocation of relevant health resources.
[Key words] Tuberculosis; GM (1,1); Markov; Prediction
结核病是世界传染病中致死率较高的一种慢性传染病,同时结核病也是艾滋病感染者死亡及因抗生素耐药所致死亡的主要原因[1]。2017年全球有160万人死于结核病,中国是全球30个结核病高负担国家之一,在2017年结核病发病人数达83.5万[2]。结合杆菌可累及人体全身各个器官,主要侵犯肺部,称肺结核。我国是结核病高发病国家,政府先后出台了《结核病防治管理办法》《“十三五”全国结核病防治规划》等一系列结核病管理规范文件,并取得了一定的成效。由于我国幅员辽阔,人口众多,即使较低的发病率也意味着庞大的发病人数,因此对结核病发病数进行有效的预测,为疾病管理部门制定策略提供依据,将有助于加速降低我国结核病发病率。 在时间序列分析中,灰色模型预测常用于呈指数变化的年度数据预测[3-5]。灰色模型即该模型可对灰色系统内的时间序列进行处理,建立灰色模型,从而发现并运用其内在的发展规律,预测未来的发展趋。一阶单变量微分方程(GM(1,1))模型是灰色系统中应用较广泛的预测模型,该模型可识别并拟合原始数据的变化趋势并预测[6]。不同于灰色模型无法拟合原始序列的波动,Markov链模型能较好地识别并拟合系列中波动,提高预测的准确度[7]。
该研究将运用GM(1,1)模型及GM-Markov模型拟合并预测全国2007—2017年肺结核发病率,比较模型效果并为制订干预措施提供参考。
1 资料与方法
1.1 资料来源
2007—2017年全国肺结核发病人数资料收集自国家卫生计生委疾病预防控制局和国家统计局公布的年度全国法定传染病监测报告,基于上述数据建立我国肺结核年发病率(/10万)数据库,用于GM(1,1) 模型及Markov联合模型的建立。
1.2 研究方法
1.2.1 研究数据 以2007—2016年共计十年的全国肺结核发病率数据作为研究年建立GM(1,1)模型,预测2017年全国肺结核发病率并与真实值相比较计算模型的预测误差。将GM(1,1) 模型对2007—2016年拟合值与实际值相比,计算相对值并以此建立Markov模型。以GM(1,1)-Markov 模型预测2017全国肺结核发病率,计算其预测误差并与GM(1,1)模型比较。
1.2.2 GM(1,1)模型的建立过程 ①对原始序列x(0)进行一阶累加生成累加序列x(1);②对序列x(1)求均值,得到相邻均值生成序列y(1);③根据累加序列建立一阶线性微分方程,该模型即GM(1,1)模型:dx(1)/dt+ax(1)=u,其中,a为发展系数,u为灰色作用量;④累减还原求解,得原始序列估计值序列x(1)(k+1)=[x(1)(0)-u/a]e(-ak)+u/a,其中,k=1,2,…n.
1.2.3 GM(1,1)-Markov联合模型建立 ①计算相对值:将实际值与GM(1,1)模型对建模各年肺结核发病率拟合值相比计算相对值;②状态划分并计算状态转移频数矩阵:根据经验将相对值划分为若干状态,初始值从状态i转移至状态j的个数记作fij,则由此构成的状态转移频数矩阵见公式(1);③計算状态转移概率矩阵:根据状态转移频数矩阵计算一步Pij(1)、二步Pij(2)及三步Pij(3)转移概率矩阵;④预测:根据距离2017年最近的三个年肺结核发病率的初始状态,计算其转移至2017年各状态的概率;⑤模型修正:根据Markov模型预测的2017年肺结核发病率所在状态区间,修正GM(1,1)模型的预测结果。
1.2.4 拟合效果检验 符合率:即预测值与实际值的相符程度,用回代年的预测值与实际值之比的百分数表示。
后验差比值C,C=Se/Sx, Se表示残差序列标准差,Sx表示原始序列的标准差。C值是反映预测值与实际值之差的集中程度,其值越小,表示预测值与实际值之差越集中。
小误差概率P,P是满足残差与残差均值之差小于0.6475Sx的个数占总数的比。其值越大,表示差值越接近0.64775Sx,即模型拟合精度越高。P值与C值综合判断模型拟合精度标准见表1。
相对误差检验,通常情况下平均相对误差差小于5%较优,小于20%尚可接受。
1.3 统计方法
运用Excel 2016建立2007~2017年全国肺结核发病率数据库,使用R 3.4.3软件编程建立GM(1,1)灰色预测模型并预测。
2 结果
2.1 建立GM(1,1)模型
2007年至2017年全国肺结核发病率呈逐年下降趋势,运用R软件编程建立GM(1,1)模型,得出全国肺结核发病率模型发展系数a为0.0441,灰色作用量u为90.3691,预测模型为x(1)(k+1)=-1960.6359e(-0.0441k)+2049.1859。运用该模型拟合2007—2016间全国肺结核发病率数据,并计算相对值。见表2。
2.2 GM-Markov模型建立
计算2007—2016年全国肺结核发病率实际值与GM(1,1)模型拟合值之比得相对值,根据经验将全部相对值平均划分为高估、较准确和低估3个状态,即E1:[0.959 2,0.980 0],E2:[0.980 0,1.010 0],E3:[1.010 0,1.046 6]。根据此划分依据确定各年相对值所在状态见表2。基于此得出一步转移频数矩阵fij和一步转移概率矩阵Pij(1)。
利用三步转移概率矩阵计算2017年全国肺结核发病率所处状态区间。选择距离2017年最近的三个年份,即2016年、2015年和2014年,依次通过一步、二步、三步转移至2017年。在各转移步数所对应的转移矩阵中,取其起始状态所对应的行向量,组成新的概率矩阵,并对该矩阵的列向量求和,其中总和最大者即Markov模型预测2017年全国肺结核发病率所处状态区间。见表3。
由表3可见,合计中以状态E3的概率最大,因此可以推测2017年全国肺结核发病率处于E3状态,即[1.0100,1.0466]。GM(1,1)模型预测2017年全国肺结核发病率为56.86/10万,因此GM(1,1)-Markov的预测值为56.86×(1.0100+1.0466)/2=58.47/10万。
2.3 模型比较
2017年全国肺结核发病率为60.53/10万人,比较GM(1,1)模型与联合模型的拟合及预测效果可知,GM(1,1)模型的拟合及预测效果均较GM(1,1)-Markov差。见表4,图1。 3 讨论
预测模型的应用不仅有助于合理有效地预测疾病的发生发展趋势并指导提前实施干预,还可用于对已经采取的干预措施进行效果评价。该研究比较了GM(1,1)模型和GM-Markov模型对我国肺结核发病率的拟合及预测效果,二者的拟合平均相对误差分别为2.08%和1.11%,预测相对误差分别为6.06%和3.40%,精度较高。由结果可知GM-Markov模型更适用于肺结核发病率数据建模及预测,可以被考虑作为潜在的政策制定辅助工具。
GM-Markov模型已经较为广泛地应用于时间序列预测[8-9]。在肺结核发病率预测方面,牛成虎[10]等学者利用灰色GM(1,1)模型拟合我国1997—2006年间肺结核发病率并预测其变化趋势,其平均相对误差为0.013%,较本次研究结果好。李娜等[11]运用ARIMA模型预测四川省结核病发病率结果显示模型的预测误差为10.00%。模型预测性能的高低与数据本身的特点有关,本研究中初始时间序列近似指数变化,但是存在明显的波动,猜想这可能是导致GM(1,1)模型预测精度下降的原因之一。此外,建模所用的样本量、模型预测的长度等都会影响到模型的拟合及预测效果。有文献显示,灰色预测模型建模数据8~10个即可,该文利用10年的数据建立模型并进行短期预测,结果较为可靠[6]。利用联合模型弥补GM(1,1)模型无法处理波动信息的特点,提高了模型的准确度。在现有研究中多数研究结果显示联合模型的性能高于基本模型,这也提示研究者在建立模型时应充分考虑各模型的适用条件及优缺点,取长补短提高模型适用性。
调查资料显示,我国过去十年间,肺结核患者人均住院费用显著增长[12]。根据已有文献,我国结核病流行具有明显特点:结核病患病率下降缓慢;患病区域地域性明显;结核病耐药性高;规则服药率低;结核与艾滋相互影响[13-14]。防控结核病应当从卫生部门和个人两方面着手。首先,卫生部门对外应开展健康教育活动,充分考虑易于接受的宣教模式,避免大面积撒网式教育。有研究发现重体力劳动者、中学生群体为结核病的易感群体,这提示可以采取有针对性的宣传[15]。另一方面,提高卫生服务资源可及性及配置合理性[16]。我国第五次结核病流行病学抽样调查结果显示,西部地区结核病发病率增长较快,而对结核病的相关知识知晓率较低[17]。分析可能与当地监测数据质量提升而带来高发病率有关,也可能是由于缺乏良好的医疗条件而未能及时防范感染导致疾病的发病率升高。西部地区医疗条件較东部地区落后,其各种疾病的发病和死亡也大多高于东部地区。我国近年来也在持续发展西部地区医疗卫生资源,由此导致的东西差异将会随着时间推移而慢慢变小。其次,就个人而言,应积极主动了解结核病传播的途径及如何有效预防。农村家庭是结核病患者的高发地点,一旦感染了结核病,应及时就医并做好隔离工作[18]。实际上农村地区结核病传染源对自身认知较少,加之不了解结核病的传播途径,往往加速了结核杆菌的传播。基于此,卫生部门可依据模型预测结果合理计划卫生资源配置,还可通过模型预测不同地区发病率变化趋势,促进资源合理分配[19]。
该次研究尚存在两点不足。首先,研究所用的我国肺结核发病率数据是通过监测得到的数据,由于存在患者患病不前往医院接受治疗等情况,监测所得发病率数据可能与实际发生的数据略有不同。该次研究仅为肺结核发病率预测模型选择提供参考,利用更准确的数据建立模型并预测才能使其预测准确性更高。其次,该次研究仅比较了两种模型拟合和预测性能,结果显示联合模型的预测能力更高,但是未利用该模型预测2018年及之后的全国肺结核发病率变化情况,因此更完善的研究有待被提出。最后,该次研究仅比较了两个简单的数学模型在我国肺结核发病率预测方面的应用,目前新兴的神经网络及人工智能等均可被尝试用于传染病发病预测。该次研究仅为纳入的两个模型比较,更多、更完善的比较体系尚有待研究。
[参考文献]
[1] Lytras T,Kalkouni O. The global tuberculosis epidemic: turning political will into concrete action[J].J Thorac Dis,2018,10(Suppl 26):S3149-S3152.
[2] 赵一菊,王声湧.科学推进结核病防控策略 实现“十三五”结核病防治规划[J].中华疾病控制杂志,2017(5):431-433.
[3] Pai TY, Lin KL, Shie JL, et al. Predicting the co-melting temperatures of municipal solid waste incinerator fly ash and sewage sludge ash using grey model and neural network[J].Waste Manag Res,2011,29(3):284-293.
[4] Shen X, Ou L, Chen X, et al. The application of the grey disaster model to forecast epidemic peaks of typhoid and paratyphoid fever in China[J].PLoS One,2013,8(4):e60601.
[5] 王红霞,李志荣,薛刚,等.基于灰色预测模型的青岛市卫生技术人员需求预测分析[J].中国卫生产业,2017(3):3-4.
[6] Wang YW, Shen ZZ, Jiang Y. Comparison of ARIMA and GM(1,1) models for prediction of hepatitis B in China[J].PLoS One,2018,13(9):e201987. [7] 刘世安,李晓松,苏茜,等.MARKOV模型对具有波动性特征传染病发病趋势短期预测的初步探讨[J].现代预防医学,2010(10):1815-1817.
[8] 时冬青.基于灰色GM(1,1)-马尔科夫链模型的职业卫生预测研究[D].天津:天津工业大学,2017.
[9] 高蔚.基于Markov理论的改进灰色GM(1,1)预测模型研究[J].计算机工程与科学,2011(2):159-163.
[10] 牛成虎,梅光辉,石敏,等.我国肺结核发病率的发展动向及预测研究[J].现代生物医学进展,2009(3):561-564.
[11] 李娜,殷菲,李晓松.时间序列分析在结核病发病预测应用中的初步探讨[J].现代预防医学,2010(8):1426-1428.
[12] 曾瑜,杨晓妍,周海龙,等.中国人群结核病疾病负担的系统评价[J].中国循证医学杂志,2018(6):570-579.
[13] 陈沛学.基于结核病的流行趋势与防控对策的分析[J].中国卫生产业,2018(15):189-190.
[14] 张国钦,钟达.耐药肺结核发生和流行的危险因素[J].中国慢性病预防与控制,2017(7):557-560.
[15] 高然,梁锦峰,陆泉,等.2004-2015年中国大陆地区肺结核流行特征分析[J].现代预防医学,2018(14):2501-2504.
[16] 龚洁莎,赵大仁.基于灰色GM(1,1)模型的我国肺结核发病率的预测分析[J].中国卫生产业,2018(15):175-176.
[17] 靳圆圆,姚雪梅,王微,等.新疆涂阳结核病的流行特征及地区聚集性分析[J].新疆医科大学学报,2016(2):239-242.
[18] Moonan Patrick K, Nair Sreenivas A, Agarwal Reshu, et al. Tuberculosis preventive treatment: the next chapter of tuberculosis elimination in India[J].BMJ Global Health, 2018,3(5):e1135.
[19] 王雅文,沈忠周,馬帅,等.GM(1,1)模型在孕产妇死亡率预测中的应用[J].中华疾病控制杂志,2018(7):755-757.
转载注明来源:https://www.xzbu.com/1/view-14765488.htm