一种基于深度强化学习的酒店收益管理模型与方法
来源:用户上传
作者:刘显峰 于忠清
文章编号:10069798(2022)02004708;DOI:10.13306/j.10069798.2022.02.008
摘要:针对深度强化学习方法在酒店收益管理上的应用问题,本文基于深度强化学习,构建了收益管理决策过程的模型与方法,通过对收益管理问题的马尔可夫性质进行了界定,描述了其模型和参数的统计学性质。同时,编写程序,实现基于深度强化学习的收益管理方法,并通过实验,将本文方法与某供应商采用的传统方法进行对比分析。分析结果表明,强化学习方法与人工收益管理方法相比,总收益提升了约15%,与传统收益管理系统相比,总收益提升了约5%,说明传统的收益管理方法成本较高,监督学习模型过于强调全局泛化性,而增大了对最优结果的估计方差,且计算量过大,而本文提出的方法能够更快地梯度下降到最优位置。该研究为企业在数据驱动下的精准定价和营销决策提供了理论基础。
关键词:深度学习;强化学习;酒店管理;收益管理
中图分类号:TP181;F719.2文献标识码:A
收益管理(revenuemanagement,RM)是一种在微观市场中预测顾客行为,并调整产品供应和价格以最大化收益增长的技术[1]。收益管理首先发源自机票预订业务的需求,并已在酒店管理等多个领域得到应用[2]。收益管理的目标是找到每天、每周、每月、每季度和每年等销售量、销售价格和成本费用之间的最佳平衡,以获得最大化的利润[3]。20世纪90年代初,酒店业开始借鉴航空业的经验,研究收益管理在酒店管理中的应用,逐步发展出相关的理论,并设计出适合酒店行业的收益管理系统[4]。酒店收益管理的核心是浮动定价,需深入理解产品对于每一类细分市场客户的价值,并进行差异化管理和优化组合。通过对市场和客户的细分,对不同目的的顾客在不同时刻的需求进行定量预测,通过优化方法确定动态的控制,最终使酒店总收益最大化,确保酒店利润的持续增长[5]。现有收益管理方法有移动平均法、线性回归法等[67]。收益管理系统是用于辅助收益管理过程的一系列计算机软件。如何从酒店管理信息系统中获取数据,根据这些数据建立模型,并进行运算、分析和辅助决策,以便动态调整客房定价、细分市场和销售渠道是值得研究的热点问题[89]。强化学习是一种用于求解马尔可夫链决定过程的机器学习算法[10]。通俗地说,强化学习算法训练一个智能体,使它在一个环境中能够做出最优化的动作,以获得最大收益[11]。强化学习通过给定环境、策略、收益进行训练,使智能体学习到最大化收益的模型或价值函数。深度强化学习是将深度学习算法应用在强化学习问题上的方法[12]。深度学习的强大的函数逼近能力,大大增强了模型向最优策略逼近的能力。对于定价问题,LIMJ等人[13]提出了价的强化学习定价策略;JINJH等人[14]提出了道路定价策略;SHIB等人[15]提出了互联网资源定价策略。目前,强化学习在收益管理领域的研究较少,A.GOSAVII等人[16]研究了一种在单航线机票收益管理上应用强化学习的方法;R.J.LAWHEAD等人[17]提出了航空收益管理问题上的一种新的策略梯度方法,但对深度强化学习方法在收益管理问题上的应用及在酒店收益管理中的应用研究却没有[18]。酒店行业对于一种便捷有效的收益管理方法有着迫切需求[19]。因此,本文基于深度强化学习,建立酒店收益管理模型,对酒店收益管理系统中的数据进行建模和分析,以期优化收益管理。该研究有一定的理论和应用价值。
1问题描述
收益管理系统的主要功能包括数据收集、分析、预测和优化。预测算法中包括平均、回归等统计学算法,根据历年销售情况,统计预测未来市场状况,而优化系统根据未来市场状况,提出合理的价格。收益管理系统优化时,常参考4个重要参数:即距离入住日期的天数、市场需求的等级、竞争对手的价格和剩余房间的数量,通过这些数据的收集和算法运算,收益管理系统提出最优收益增长建议[20]。通过收益管理和强化学习问题之间要素的对应,可将收益管理问题表述为强化学习问题模型。收益管理的目标是最大化营业额和利润,这两个指标可以作为强化学习算法的优化目标。模型契合的核心在于优化目标的一致性,本文选择营业额作为优化目标。状态对应预测参数和优化参数,预测参数包含时间和日期,优化参数包含距离入住日期的天数、市场需求的等级、竞争对手的价格和剩余房间的数量等。在传统收益管理系统运行过程中,对于应用强化学习算法的收益管理系统,要尽可能多的采用这些参数做出预测和优化,以做出更加准确的预测。由于这些因素客观存在,无法直接控制,因此它们对应强化学习问题中的状态。动作对应销售价格和市场建议,销售价格是酒店可以随意改动的参数,酒店通过主动控制该参数,求得收益最大化,因此可把它当作动作。值得注意的是,无论环境如何,动作集合都不会改变,即定价的取值范围不会改变,智能体对应的是进行预测和优化收益管理系统。传统收益管理系统的算法,按照状态动作收益的模型运作,该模型预先定义好,而强化学习算法是从历史经验中学习。
强化学习算法有较大的灵活性,即使修改模型约束条件,强化学习算法仍能正确运行,并在新的约束条件下尽可能求得最优解。目前,对各个参数的选择是模仿收益管理问题的传统模型,建立该模型要尽可能合理地选择输入输出参数,相同的参数选择可以方便对结果进行比较。某些条件是否人为可控等酒店管理学较深专业内容,是该领域一个开放性问题。
2基于深度强化学习的酒店收益管理模型
2.1MDP模型
马尔可夫决策过程(markovdecisionprocess,MDP)是序贯决策(sequentialdecision,SD)的数学模型,用于在系统状态具有马尔可夫性质的环境中,模拟智能体可实现的随机性策略与回报。在随机过程中,马尔可夫过程定义为
式中,P{|}表示条件概率;Xtn表示tn时刻x的分布;x表示入住率。
转载注明来源:https://www.xzbu.com/1/view-15426966.htm