基于衰变IC加权的多因子选股模型
来源:用户上传
作者:
摘要:在基于传统的多因子选股模型下,进行了对因子权重分配的改进。在选取有效性因子后,使用衰变IC因子赋权方法得出更为符合市场的选股模型,并根据模型每个月进行重新调仓使用沪深300指数作为基准进行超额收益率的计算。结果表明该模型的回测表现优于同期沪深300指数表现,在验证了衰变IC加权模型的有效性后,推广该模型,更好地为广大投资者提供研究建议。
关键词:量化投资;多因子模型;权重赋值;IC系数;衰变型
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2019)11-0256-02
成功的股票投资无外乎几大步骤:选股、择时、仓控。精通任何一点就可以说是在股市中所向披靡。量化投资亦是如此,多因子选股作为当前量化方向重要选股手段,共有几大步骤首先便是对于因子的选取,Fama和Kenneth(1993)曾研究了几种常见对股票以及债券收益的因子,并表示市场风险、企业规模、账面价值等相关性风险因素。[1]
在因子选取后便是对有限因子的选取,安信证券金融工程分析师潘安(2011)的研究报告指出在选取相应选股因子之后,要进行有效因子的选取以及有效冗余因子的剔除,其构造的选股模型在2005年到2010年间有着很好的收益。
随后是对多因子选股模型的构建,当前普遍的模型构建方式大都依靠因子评分法以及回归分析法。吴荻(2011)采用多因素综合Z评分的选股方法,将14各项指标进行一定标准化,然后用不同的权重构建模型,验证得到该模型在牛市中有着良好的选股能力。[2]
对于权重分配的研究,长江证券(2016)使用了因子值对收益率进行截面回归分析,并在得到因子的收益率后将其作为动态权重。董婵(2017)对于当前选股中因子赋权进行突破,采用信息系数-当前因子值与下期收益率的相关性进行重新赋权,在对2013-2015的中证500回测中有着较好的收益率。[3]
1 多因子选股模型思路
1.1 数据的来源选取
本文选取所有在2018年12月调整后的沪深300指数成分股作为研究样本,并以2010-2018年作为样本期,其中2010-2014年为因子筛选期,2015-2018年作为选股策略的样本检验期。其中样本选取时间包括熊市、牛市、震荡市。样本空间范围为:1.上市6个月以上、2.非ST股及ST摘帽后3个月以上。所比较的收益市场基准也选择沪深300指数。
数据的内容包括上市公司的基本面数据,技术面数据,样本充足对于当某家的指标数据多于一半的数据为空值时,认为这样的样本会影响正常效果并直接剔除,若是有个别的数据的缺失,本文采用前后加权平均的手段进行补充,并且由于这样的数据确实较少所以对于样本数据不会有太大的影响。其中对于因子选取数据均采用公司季度数据,对于发布时间有所不一样的,对第二季度与第四季度进行改变,使用半年报以及年报进行相应参考。
数据采集来源来自国泰安数据库,使用的数据处理软件为聚宽的python平台。
1.2 候选因子的选取
本文将所考虑的候选因子共分为基本面因子、技术面因子。其中基本面因子包括规模因子、估值因子、盈利能力因子、品质因子。技术面包括换手率以及月成交量共有21个因子,如表1所示:
1.3 选股因子的有效性检验
在已有的21个候选因子中挑选更为有效的、真正影响股票收益率的因子则为重中之重。本文采用将这些因子进行单独测试,每个选股周期重复测试,首先information coeficient(IC)信息系数是选取因子的第一道关卡,IC系数记录了股票因子值与下期收益率的相关系数。本文采用spearman秩相关系数进行选择,若是秩相关系数较大,则该因子对股票价格影响较大。通常来说,一般认为IC绝对值>=3%,则认为该因子较为有效。其次要判断IC的正确性,对每个交易日的IC值进行显著性检验,设置通过显著性检验的IC比例-显著性比例,并设定阈值0.7,超过70%即可认定为优秀的因子。
第二步,在将沪深300个股的年化收益率与因子进行相关性分析,若正相关则,因子越大收益率越高,反之,因子越小收益率越大,倒数处理。然后根据所得数据对股票进行因子大小的打分,根据打分进行降序排列后分组,本文将其分为15组,从1组到15组。然后,分别计算第一组和第15组的超额α收益,分别设为x与y,若是能够明显看到两组中一组明显跑赢沪深300指数以及一组明显跑输沪深300指数。最后计算分别在牛市、熊市、震荡市中个组合的表现,若是跑赢与跑输的概率基本不变这说明因子选取较为准确。
1.4 有效冗余因子的去除
尽管在选取的有效因子都能够在股市中有着良好的表现,但是通常会有这一些因子的相关性相当高,减少相关变量的影响是多因子选股模型的重要环节。本文需要留下相关性较小的有效因子。[4]具体步骤是:计算不同因子的超额收益率,随后进行打分,超额收益率高的因子分值高。假设组合[A1]到组合[An]有超额收益率[Q1]到[Qn],将收益率按照大小进行排列,若[Qn]>[Q1],那么第t个因子的得分就是t,反之得分为[n-t-1],随后根据得分得到相关性矩阵。在设定阈值[MaxIndexCorr][MaxIndexCorr]后,若是相关系数超过阈值,则该因子作为冗余因子被去除。此处经过检验没有因子被去除,故不列所计算数据。
1.5 动态权重评分模型
本文采用打分法筛选出股票组合,常见的打分法分为两类,本文采用动态权重打分法。使用IC因子对9大因子进行赋权,在这里,本文因为考虑了时间对IC因子的影响,认为因子具有一定的动量性,所以近期因子对股票收益的影响一定是要大于远期因子的,那么不妨将近期因子赋予更多的权重,远期因子的权重赋予少些。
规定所选择股票5日换仓,每一次换仓日向前滚动一期计算最新IC值,作为下一期的权重,最后使用沪深300指数作为基准指数,将所得收益与其比较。
2 模型回测
通过聚宽python量化平台进行相应数据回测,可以得到量化收益回测图:
其中蓝色线条为本文采用的衰变IC加权模型所会测出的策略收益线,三年收益高达36.20%,策略年化收益8.24%,而同期滬深300指数收益-14.80%,说明本策略实战效果良好,通过检测。
3 结论与建议
通过模型可以看出,通过IC系数选取的因子在衰变IC加权的动态打分系统模型下表现良好,其模型收益远高于同期的沪深300指数,在基本面分析与纯技术分析中找到了相当的与股价波动的关联,帮助当前股民有效地规避了一定风险。同时这一结论为当前的投资者提供了一条行之有效的量化选股的思路,使得当前的投资行为可以更为顺应未来的市场行情波动。
参考文献:
[1] 朱世清.多因子选股模型的构建与应用[D].济南:山东财经大学,2015.
[2] 朱晨曦.我国A股市场多因子量化选股模型实证分析[D].北京:首都经济贸易大学,2017.
[3] 黄文娟.情景分析框架下的多因子模型优化[D].北京:对外经济贸易大学,2017.
[4] 孙伟.股票量化交易策略的研究及MATLAB的实现[D].天津:天津商业大学,2017.
【通联编辑:张薇】
转载注明来源:https://www.xzbu.com/8/view-14769806.htm