基于Logistic回归模型的航材外站配放策略
来源:用户上传
作者:阚士行 王峥
摘要:对航空公司外站航材存放数据进行汇总、整理,拟合Logistic回归曲线,通过ROC曲线选定最优阈值,建立航材外站配放模型。通过模型数据对航空公司外站航材配放提供决策数据支持。
关键词:航材外站配放;Logistic回归模型;ROC曲线
Keywords:aviation material outstation store;Logistic regression model;ROC curve
0 引言
航空公司航线网络具有点多、面广、线长的特征。为保障航线网络的畅通,航空公司需要在主基地之外的航站配放一定量的过站常用航材。目前,大部分航空公司采用历史经验数据决定某一航站是否配放航材,决策过程缺少数据定量分析支撑,存在标准不一、经济性低的情况。本文以SC航空公司外站配放航材为例,通过建立Logistic回归模型,为外站航材配放提供决策数据支撑,并通过ROC曲线选定最优阈值,评估模型的优劣。
1 模型简介
1.1 Logistic回归模型
针对连续型因变量,可以应用线性回归对因变量进行解释或预测。但对离散型因变量,尤其是二分类因变量,只有“行”与“不行”、“0”与“1”的区别,这时就要应用Logistic回归进行分析。
1.2 ROC曲线
ROC曲线(Receiver Operating Characteristic Curve)又称为受试者工作特征曲线。简单来讲,对一个二分问题,即实际分为正类(Positive)和负类(Negative),针对该实例进行预测,会有4种结果,如表1所示。
其中,TPR(灵敏度,sensitivity)为在所有实际为1(Positive)的样本中,将其正确地判断为1(Positive)的比率;TNR(特异度,Specificity)为在所有实际为0(Negative)的样本中,将其正确地判断为0(Negative)的比率;FPR(1-Specificity)为在所有实际为0(Negative)的样本中,将其错误地判断为1(Positive)的比率。
如果一种预测方法能够使TPR变高、FPR变低,那么这种方法能够有效区分样本。但这两个指标相互制约。若某方法比较敏感,稍有指征即判断为1(Positive),则TPR会很高,但同时也会将很多实际为0(Negative)的误判为1(Positive),即FPR会很高。在最极端的情形下,所有样本都判断为1(Positive),那么TPR值为1,FPR的值也为1。
根据不同的阈值,将大于该阈值的判断为1(Positive),小于该阈值的判断为0(Negative),则会得到相应的(FPR,TPR)值,将其描绘在坐标轴中,得到相应的ROC曲线。可见,ROC曲线是一个很好的分类器。
图2是一个ROC曲线的例子,图中黑色曲线为ROC曲线,浅蓝色区域的面积为AUC(Aera Under Curve)。AUC为衡量分类器优劣的一个指标。一般来讲,若AUC为0.5,即图中正方形对角线(灰色直线),则该分类器没有预测价值,等同于随机猜测;AUC越大越好,一般在0.8左右,该分类器即有较大的应用价值。使AUC最大的阈值,是所需要的。
2 模型应用
2.1 Logistic模型的建立
对SC公司69个航站收集数据如表2所示。
此时,AUC为0.902,区分度较好,此阈值下ROC曲线为一个较好的分类器。同时,若按照预测结果进行配放,则能节约13%的配置成本。假设SC公司外站配置航材总成本为200万元,可通过该模型减少26万元的航材配置。
若选用包含X1、X4两个自变量的Logistic模型测算AUC,其AUC仅为0.695,此时阈值为0.6。此阈值下ROC曲线的AUC仅稍高于0.5,分类效果较差。
2.3 应用案例
若某新开飞航站预计未来一年航班量为360班次,与最近的基地航司距离为500km,该航站其他航司资源数量为0,计算得到的Logistic模型的概率为0.96,大于阈值0.76,则应在当地配放航材。
3 结
本文通过以上分析建立了较好的分类模型,可为后续在外站是否配放航材提供了定量的数据支持,便于施行统一的航材外站配放标准,节约航空公司外站配放成本。
参考文献
[1] Fred C. Pampel. Logistic回归入门[M]. 周穆之译. 上海:上海人民出版社,2015.
[2] 陈卫中,潘晓平,倪宗瓒. Logistic回归模型在ROC分析中的应用[J].中国卫生统计,2007(1):22-24.
nlc202211291336
转载注明来源:https://www.xzbu.com/1/view-15442698.htm