您好, 访客   登录/注册

基于随机森林融合因子分析的资产收益模型研究

来源:用户上传      作者:

   摘要:科学有效地预测企业净资产收益率对于资本市场评估企业有很好的借鉴意义。文章为探求随机森林算法对净资产收益率的预测能力,以800家上市企业数据为样本,分别采用决策树、随机森林和支持向量回归模型进行对比试验,建立因子分析与随机森林组合模型,结果表明,随机森林对于净资产收益率有更优的预测效果,对资本市场进行企业评估有很好的借鉴和指导意义。
   关键词:因子分析;MDS降维;决策树;随机森林;支持向量回归净资产收益率
   一、引言
   随着社会的进步和发展,人们的思维方式也产生了进步,人们对于金融投资的态度也发生了改变,而对于企业而言,如何让更多的消费者对公司进行投资即如何获取最大的利润也成为了企业家考虑的最重要的问题。较为直观的进行判断一家企业的盈利情况就是通过净资产收益率。ROE代表一个公司的净资产收益率,那什么是净资产收益率?简单地说,净资产收益率是公司税后利润除以净资产得到的百分比率,用以衡量公司运用自有资本的效率,ROE是资本市场对企业估值的一个重要考量,因此是企业投资价值基本面分析的一个重要内容。
   企业评估、资产收益不仅是企业经营者考虑的问题,很多学者也为此做出大量的研究与分析。朱青建立层次聚类法和随机森林算法模型,对开放式基金风险评级研究,结果表明,随机森林算法在基金评级模型中准确率最高,效果最好。李涛等人建立融合模拟退火的随机森林模型,对房价进行评估运算,改进了传统算法,得到更优的效果。徐枫等人利用随机森林算法,进行农村居民点适宜性评价,取得了很好的效果。张迎辉等人利用多模态数据进行融合,建立深度森林多模态模型,为更好的实现抑郁症患者的识别提供依据。
   二、模型构建
   (一)随机森林模型
   作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。
   随机森林实际上是一种特殊的bagging方法,它将决策树用作bagging中的模型。它使用CART决策树作为弱学习期,对于普通的决策树,我们在节点上所有的n个样本特征中选择一个最优的作为左右子树划分,但随机森林通过随机选择节点上小于n的一部分样本特征,之后在这些样本特征中找到一个最优的作为左右子树进行划分,进一步增强了模型的泛化能力,算法过程大致如下:
   输入为样本集D={(x1,y1),(x2,y2),…,(xm,ym)},弱分类器迭代次数为T,输出为最终的强分类器。
   1.对于t=1,2,…,T,对训练集进行第t次采样,共采集m次,得到包含m个样本的采样集Dt。
   2.用Dt训练第t个决策树模型Dt(x),在选取的样本特征中找到一个最优的作为左右子树进行划分。
   随机森林算法在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合,它能够处理很高维度的数据,并且不用做特征选择,对数据集的适应能力强,在实际操作中应用性非常广泛。
   (二)因子分析法
   因子分析法,也称EFA算法,是一系列用来发现一组变量的潜在结构方法,它通过寻找一组更小的,潜在的或隐藏的结构来解释已经观测到的、显式的变量间的关系。过程如下:
   1.将原始数据标准化,消除变量间在数量级和量纲上的不同;
   2.求出标准化数据的相关矩阵;
   3.进行数据集降维处理。
   本文通过将因子分析法与随机森林相结合,建立模型,与多种机器学习算法进行比较,最终发现该模型的预测能力更好,对于企业者进行决策有一定的借鉴意义。
   三、实证分析
   (一)数据选取与说明
   随机选取2012~2013年800家上市企业数据样本,其中训练样本的个数为770个,测试样本个数为30个。选取ATO、PM、LEV、GROWTH、PB、ARR、ASSET、ROEt八个指标作为自变量,ROEn(即企业下一年的净资产收益率)作为因变量进行回归分析,其中ATO代表企业资产周转率,该财务指标用来综合评价企业全部资产的利用效率;PM代表利润率,反映公司的基本债务状况;LEV代表债务资本比率,反映公司的基本债务状况;GROWTH代表企业生长速度,用来反映公司的成长状况;PB代表市倍率,反映预期的公司未来成长率;ARR代表收入质量,反映公司当年尚未实现的主营业务收入,从一定程度上说明了公司的盈利质量;ASSET代表资产规模,也称作资产总计,反映公司的规模;ROEt代表公司在当年的净资产收益率,它直接反映了公司该年的盈利情况。
   (二)实验过程
   以下实验过程基于r语言软件,采取因子分析法和MDS降维两种方法对原始数据进行降维处理,并结合决策树、随机森林和支持向量机三种算法进行回归预测。实验过程大概如下:
   1. 数据降维处理。
   首先将降维前和降维后的算法进行比较,采用了决策树、随机森林、支持向量机算法进行比较分析,采取前770个数据作为训练样本,后30个数据作为测试样本,先对数据进行归一化处理,进行矩阵分析,并分别计算降维前后的MSE值,计算公式如下所示:
   MSE=
   计算得到结果对比如表1所示。
   可以看到通过因子分析降维后误差率有了显著下降,精度有了提升。
   2. 随机森林回归预测。
   经由EFA降维处理后一共提取出3个公因子,得到因变量为ROEn(企业下一年净资产收益率),3个解释性变量的一组数据样本,通过决策树和支持向量机两种算法与随机森林进行比较,得到随机森林预测的拟合效果最佳。拟合效果如图2所示。
   同时计算三种算法下的预测精度如表2所示。
   对比于图2和表2,可以发现随机森林的拟合效果相对于其他两种算法有了提升,预测效果更好。决策树对于训练集有很好的预测能力,但有时对于未知的测试数据泛化能力却相对较弱,往往会发生过度拟合的现象,这也是需要在实验过程中注意的地方。
   四、总结
   将因子分析法与随机森林算法相结合建立模型,并与决策树、支持向量机模型进行比较,发现随机森林算法应用于当前的数据集,相对其他算法有着很大的优势,具有很好的抗噪声能力,训练出的模型方差小,效果最為理想,同时为上市公司ROE决策提供一定的借鉴意义。但该种算法仍然存在局限性,在训练和预测时速度比较慢,仍需要改进。
   参考文献:
   [1]张诗超.基于随机森林的人力资源数据分析和预测方法研究[J].通讯世界,2018(08).
   [2]关晓蔷,庞继芳,梁吉业.基于类别随机化的随机森林算法[J].计算机科学,2019(02).
   [3]李欢,熊梦莹,聂斌,杜建强,周丽,黄强.融合因子分析的随机森林研究[EB/OL].计算机工程与应用,2019-03-11.
   [4]李涛,张景肖.基于BT-SVM模型组合的动态加权多分类算法研究[J].统计与信息论坛,2019(01).
   [5]丁旸钧天,曹怀虎.融合模拟退火的随机森林房价评估算法[EB/OL].计算机应用研究,2019-03-11.
   [6]徐枫,王占岐,张红伟,柴季.随机森林算法在农村居民点适宜性评价中的应用[J].资源科学,2018(10).
   (作者单位:辽宁师范大学数学学院)
转载注明来源:https://www.xzbu.com/2/view-15130406.htm