生存分析模型及在交通工程的应用
来源:用户上传
作者:
摘 要:交通大数据经常面对数据删失、截尾、缺失等问题。生存分析模型可以很好地处理该问题,在交通领域逐步推广。它将事件结果与出现这一结果所经历的时间结合,可以判断事件发生或者结束时间的分布或探究解释变量对生存时间的影响。国内外许多研究通过生存分析的灵活应用及拓展,为很多实际交通问题提供了解决方法和指导意见。文章首先介绍了主要生存分析的适用性及拟合优度比较方法,并介绍若干交通领域生存模型应用案例。
关键词:生存分析;适用性;拟合优度;交通工程
中图分类号:U491.2 文献标志码:A 文章编号:2095-2945(2020)14-0022-03
Abstract: The application of big data in transportation has to face various problems such as censor, truncation, and missing data. Survival analysis is a good choice to deal with this phenomenon. It combines the event result with the time elapsed after the occurrence of the result, and can estimate the distribution of survival time or explore the effect of explanatory variables on survival time. Many studies have provided solutions and guidance for practical traffic problems through the flexible application and expansion of survival analysis. This article first introduces the applicability of major survival analysis and comparison methods of goodness of fit, as well as several case studies in transportation field.
Keywords: survival analysis; applicability; goodness of fit; transport engineering
引言
生存分析模型也称为持续时间模型,作为基于实验或调查数据分析生存时间的一种统计方法,近年来已逐步应用于交通领域的拥堵[1],高峰[2]及等待时间[3]等实际问题的研究。研究对象的状态可能为两种以上,抽样方式和分布往往具有多样性且一般存在删失数据。本文介绍生存分析的基本概念,主要模型的适用性及拟合优度的评判标准,结合现有交通研究进行案例分析。
1 生存分析
1.1 生存时间
交通预测面临很多动态预测需求。例如高峰期拥堵开始至结束的持续时间,行人到达交叉口至开始闯红灯所经历的等待时间等。这些例子都包括起始事件和结束事件,事件经历的时间即生存时间。
1.2 生存函数
生存函数又称累计生存率,表示单个事件的生存时间T大于时间t的概率,即单个事件在时间t之后仍然存活的概率。如果随访数据中不存在截尾数据,生存函数可以表示为:
1.3 概率密度函数和风险函数
生存分析概率密度函数定义为事件在t时刻结束的概率,概率密度函数为非负函数,各时刻结束概率绘制成的曲线与时间轴之间的面积为1。公式表示为
2 主要生存分析模型及其适用性
生存分析模型有三种形式:非参、参数及半参模型。选择时主要取决于想要预设的生存函数类型以及协变量如何对生存时间产生影响。非参生存方法主要用于对随访数据进行统计性描述,本文主要介绍半参数和参数生存模型的适用性及其案例。
2.1 半参数生存模型
2.1.1 模型介绍
半参数生存模型首次提出于1972年[4],它不需要预先设定生存时间的分布,但却可以最终通过模型反映生存时间的变化以及协变量对生存时间的影响,近年来已成为最受欢迎的生存模型。
其中,Cox比例风险模型(Cox proportional hazards model)最受欢迎,是“稳健”模型,调整后的生存曲线可以良好的估计各种数据并获得风险比,给出了可靠的拟合结果。在应用于实际问题之前需确保数据满足风险概率假定,即加入模型的协变量对生存率的影響不随着时间而改变。其风险函数表达式为
式中,h0(t)为基础风险函数,未指定任何分布。不包含时间的X的指数分布确保了模型始终给出非负的风险估计。PH假定即基准风险h0(t)是t的函数而与X无关,指数部分是X的函数,与t无关。半参数模型在满足PH假定的前提下具有普适性和较高的灵活性,Cox比例风险模型没有限定生存时间的分布,也就无法得到任意时刻的概率密度值。因此估计协变量的参数时,使用偏似然函数代替极大似然法。
2.1.2 案例分析
半参数生存分析由于其独特优势而被广泛应用跟驰时间、救援时间、等待时间研究。赵海月(2018)[5]应用Cox比例风险模型研究特殊天气下信号交叉口的行人穿越行为,将生存时间定义为行人在红灯期间到达道路交叉口等待区至离开等待区的时间跨度,将行人选择遵守法规等待至绿灯时离开的数据定义为“删失”。该研究探讨了出行时段、个人特征、行为变量三类因素对行人忍耐时间的影响,分析结果对提升行人过街安全具有一定现实意义。 杨茜(2018)[6]使用Cox比例风险模型对相同问题展开研究,呈现了较好地模型拟合效果且结构完整。在进行PH假定检验的过程中,该论文指出若某些协变量不满足要求,可以考虑将其从比例风险中剔除。但事实上在许多实际问题研究中,可以通过对Cox比例风险模型地适当变形来解决。张彦宁(2020)[7]等人在对驾驶员跟驰反应延迟时间的研究中就使用了分层Cox模型进行分析。近年来,为应对随访数据中协变量的多种问题,研究中经常被使用的半参数生存模型还包括分层Cox模型,Cox共享脆弱模型,带有时间相关变量的Cox风险模型等。
2.2 参数生存模型
2.2.1 模型介绍
当生存时间的分布明确,参数模型是最佳选择。参数生存模型需要给出生存时间服从特定的参数分布。若某生存分析中仅有协变量性别(女性=0,男性=1),而在任何特定时间内受访者均处于“存活”,半参数模型无法像参数模型一样完成Kaplan-Meier估计。
非参数和参数方法比较了在“死亡”发生节点的受访者,参数方法不基于结果进行此类比较,而是使用概率描述了在给定的时间范围内,受访者在整个时间间隔中发生的情况。参数生存分析同样具有分层、脆弱等多种变化以适应数据和变量的复杂性,主要的参数分布有指数分布、Weibull分布、对数Logistic分布、伽马分布等,风险函数和生存函数的表达形式如表1所示。
其中λ为尺度参数,决定分布的离散程度;ρ为形状参数,决定分布的整体形态。
2.2.2 案例分析
参数生存模型相对于半参数生存模型来说可以获得更好的数学形式。李明(2015)[8]定义生存时间为从零点开始至居民出发去购物为止所经历的时间段,引入了个人特征、家庭结构和出行方式三类变量研究购物出发时间的影响因素。在利用赤池信息准则、Cox-snell残差法比较拟合优度后,最终选择log-logistic模型进行预测并制定了相应的交通管理措施。
生存分析中的脆弱因子为不同个体或群体间的异质性提供了很好的解决方案。该概念由Vaupel等人在1979年提出,将随机效应引入模型可以解决未观测到的因素对模型结果产生的影响。生存分析中的脆弱因子一般服从伽马或逆高斯分布。何清廉(2018)[9]在对信号交叉口黄灯期间停车行为的研究中将脆弱因子引入对数正态模型中,打破了驾驶员均质性的假设,使模型结果更加可靠。
3 拟合优度评估
3.1 赤池信息准则和贝叶斯信息准则
赤池信息准则(AIC;1973)和贝叶斯准则(BIC;1978)是现阶段应用最广泛的模型选择标准,利用似然估计值比较不同分布模型的拟合程度,都兼顾了模型简单性和拟合优度之间的平衡,并带有惩罚项以防止过度拟合。从Raftery(1995)[10]对AIC和BIC的比较中认为当样本量足够大时,BIC选择正确的模型而AIC选择了比真实模型更复杂的模型。参数和半参数生存分析之间无法使用AIC、BIC进行横向比较。
3.3 Harrell's C指标
Harrell's C指标(Harrell,1982)[12]针对右删失的比例风险模型开发,后逐步扩展至Cox比例风险模型等。基于生存模型预测的较早“死亡”受试者生存时间较短,反之亦然这一特性,该统计量通过所预测的受访者死亡顺序与实际一致的概率C来比较半参数生存分析的拟合效果。对任意t>0,一致性的表达形式为
其中i,j表示样本中的任意一对观测者;Ti,Tj表示真实的“死亡”时间; 表示预测的死亡时间。当C=0.5时,模型不足以基于随访数据进行预测;当C=1时,模型具有完全预测能力,可以很好的拟合生存数据。
4 结束语
生存分析利用统计学相关理论,在探究生存时间影响因素的过程中将事件结果与所经历时间相结合,这种独特性使其成为了现代统计学的一个重要分支而被广泛研究。本文首先介绍了生存分析的基本概念,回顾了生存模型的主要类型和适用性,最后总结了不同类型生存分析所适用的拟合效果评估准则和指标。在探究生存模型在交通领域具体应用的过程中,本文发现了现有研究的不足并结合实例进行案例分析,希望能为后续研究提供理论基础。
参考文献:
[1]熊励,陆悦,杨淑芬.城市道路交通拥堵预测及持续时间研究[J].公路,2017,62(11):125-134.
[2]石庄彬.基于生存分析的轨道交通客流高峰持續时间区间预测[A].中国智能交通协会.第十二届中国智能交通年会大会论文集[C].中国智能交通协会:中国智能交通协会,2017:251-260.
[3]李志银.信号交叉口行人穿越行为建模与分析[D].北京交通大学,2017.
[4]Cox DR. Regression models and life-tables. Journal of the Royal Sta- tistical Society. Series B,1972,34(2):187-220.
[5]赵海月.下雨天气对信号交叉口行人穿越安全行为的影响分析[D].北京交通大学,2018.
[6]杨茜.信号交叉口行人过街忍耐时间建模及应用[D].重庆交通大学,2018.
[7]张彦宁,郭忠印,高坤,等.基于分层COX模型的跟驰反应延迟时间生存分析[J].交通运输系统工程与信息,2020,20(01):54-60.
[8]李明.基于风险模型的城市居民购物出发时间分布规律分析[D].北京交通大学,2015.
[9]何清廉.考虑驾驶员异质性的信号交叉口黄灯期间停车行为研究[D].北京交通大学,2018.
[10]Raftery A E. Bayesian Model Selection in Social Research[J]. Sociological Methodology, 1995,25:111-163.
[11]Cox D R, Snell E J. A General Definition of Residuals[J]. Journal of the Royal Statistical Society. Series B: Methodological, 1968,30(2):248-275.
[12]Harrell F E J, Califf R M, Pryor D B, et al. Evaluating the Yield of Medical Tests[J]. JAMA The Journal of the American Medical Association, 1982,247(18):2543-2546.
转载注明来源:https://www.xzbu.com/1/view-15205912.htm