R语言在现代运营分析中的应用
来源:用户上传
作者:
【摘要】随着我国经济的发展,社会科学中的金融经济的创新,使得投资者判断股价长期发展趋势时又回到一个最基本的概念,即由于公司本身的价值带来股价的增长。因此上市公司的季度或年度综合经营绩效可以较好的反映出公司的经营状况。本文将从上市公司披露的财务报表中捕捉因素,通过决策树算法及人工神经网络算法对公司综合经营能力进行预测。
【关键词】ID3决策树 BP人工神经网络 动态市盈率 财务指标
1主要研究方法和内容
本文利用数据挖掘技术中的ID3决策树和BP神经网络两种算法,以上市公司的动态市盈率作为综合经营绩效的分类标准进行分类预测。本文先随机选取2017年A股市场上共1847条上市公司的动态市盈率作为分类数据集,对优秀、良好、一般以1:2:1划分得到分类结果。再以随机选取的210个上市公司作为样本,市盈率等级为优秀、良好、一般的各占70条数据。以动态市盈率的等级作为输出变量,选取六个不同方面的财务指标作为输入变量,随机选取90%的数据作为训练样本,用于建立模型;其余的10%则作为测试样本,用于对模型的有效性检测。利用两种算法分别建立分类预测模型。
2数据收集、探索及清洗
2.1确定指标
对一个上市公司的经营效益进行评估时,需要从财务报表中选择多个财务指标进行综合分析,一般包括投资收益、盈利能力、短期偿债能力、长期偿债能力、成长能力、营运能力这六大类指标。通过对它们进行综合分析,选择更有投资价值的上市公司进行投资。
2.2属性构造
从财务比率的描述统计量中可以发现,净资产增长率、存货周转率和动态市盈率的极差和标准差都较大,说明了数据的离中趋势非常强烈。从中可以说明上市公司的经营状况差别非常大,因此在对动态市盈率进行分类、随机抽样之后,还要对相应的变量进行数据规范化的操作。
为了更好的提取数据中的信息并得到更准确的分类预测的结果,需要利用已有的数据和属性构造出新的属性,并加入到现有的属性集合中。根据通常的分类经验,将动态市盈率这一变量以1:2:1的比例进行等频离散,并分别归类于“优秀”、“良好”、“一般”三类属性,构造属性“未来盈利能力预期等级”作为新的指标,并以此为模型预测中的输出变量。
2.3数据的特征值分析
(1)基本每股收益:该指标反映上市公司的盈利能力,每股收益越高,表示企业的盈利能力越强。“优秀”股的均值较低,但其同时又较低的极差和标准差,说明该分类中每股收益较为相近,“良好”股和“一般”股则有较大的标准差和极差,说明该分类中受到极值的影响较大。
(2)营业净利率:该指标表示企业每单位资产可以獲得利润总额的数量,净利率越高表明企业的盈利能力越强。三类上市公司中,“优秀”股的标准差最小,说明该分类中净利率较为集中和稳健,“良好”股和“一般”股则有较大的标准差和极差,说明该分类中受到极值的影响较大。
(3)流动比率:流动比率过高表明流动资产占用较多,会影响企业的经营资金周转率和获利能力,过低表明企业的短期偿债能力比较弱。这里,“良好”股票的流动比率平均值为2.64,偏高;“一般”股的平均值为 2.11,偏低;“优秀”股票的平均值为 2.28,最为合理。
(4)资产负债率:该指标反映企业总资产中有多少资产是通过负债筹集的,是一个评价企业负债水平的综合指标。从债权人、投资者和经营者不同的角度去看,对资产负债率的高低有不同的理解。一般认为,资产负债率维持在40%-60%之间最为适宜。三类上市公司中,“优秀”股的资产负债率均值为41.2%;“良好”股的均值为 40%,偏低;“一般”股的均值为 50%。相比之下,“一般”股的企业总资产中,通过负债筹集的资产比例偏高。
(5)净资产增长率:该指标可以反映企业的发展能力,它越高代表企业的生命力越强。如果在较高净资产收益率的情况下,又保持较高的净资产增长率,则表示企业未来发展更加强劲。三类上市公司中,“优秀”股的净资产增长率最高,其次是“良好”股,最低的是“一般”股
(6)存货周转率:存货周转率的高低反映企业存货管理水平的好坏,存货周转率越高,表明存货转换为现金的速度越高。本文中,“良好”股的存货周转率高于“优秀”股,“优秀”股高于“一般”股。
3决策树与BP神经网络对市盈率分类的预测
3.1抽取训练集和测试集
首先对上一步得到的210条数据的数据集按照训练集:测试集=9:1的比例进行 sample函数的随机抽样,选出 189个样本作为学习对象,其余 21个作为测试集测试泛化能力。没有按照普通的8:2的比例是因为样本数据过少,如果按照该比例则可能出现学习不足的情况。
3.2预测结果
拟合和测试结果的混淆矩阵显示训练集的正确率为96.83%,而测试集的正确率为52.38%。决策树模型的拟合和测试结果的混淆矩阵显示训练集的正确率为76.19%,而测试集的正确率为61.91%。
3.3模型对比与结果分析
在利用ID3决策树和BP人工神经网络两种分类方法分别建立预测模型,并通过比较它们的训练集和测试集正确率后可以发现,ID3决策树算法给出的预测准确率较BP人工神经网络算法高,最高达到了71.43%。但是两者的预测准确率都没有达到非常高的水平,主要原因可能是:决策树算法适用于指标数量不是特别多且各指标间的逻辑关系不是特别复杂的情况,而神经网络算法具有通过非线性输出以及利用多层结构进行预测的特点,适合处理指标较多且指标间关系相对复杂的对象。因此,可能在模型的选择和影响变量的选择上仍然存在可改进的部分。此外,数据数量的多少也极大的影响了模型拟合和泛化的能力,因此如果加入数据挖掘的技术,获得更大的样本容量,也许会得到更高的预测精度。
参考文献:
[1]潘静,张颖,刘璐.基于ARIMA模型与GM(1,1)模型的居民消费价格指数预测对比分析[J].统计与决策,2017(20):110-112.
[2]吴玉霞,温欣.基于ARIMA模型的短期股票价格预测[J].统计与决策.2016(23):83-86.
[3]张玉林.神经网络在股市预测中的建模及应用[D].大连:大连理工大学,2004.
转载注明来源:https://www.xzbu.com/2/view-15070796.htm