基于Word2vec的创新行为自愿性信息披露指数研究
来源:用户上传
作者:
摘 要:收集了2012-2017年深圳证券交易所中小企业板年度报告,共计3090份有效样本,从创新意识、创新支持、创新管理、创新实现、创新推广、创新效果等方面创建中小企业创新行为自愿性信息披露评价指数,利用深度学习技术——Word2vec给出科学的评判方法。然后从披露内容、行业类型、产权性质、地理区域等方面对中小企业板创新行为自愿性信息披露现状进行分析评价,结果表明:中小企业创新行为自愿性信息6年平均披露程度为50.83%,整体水平虽然不是很高,但是呈现逐年上升的趋势,未来在创新支持和创新实现方面还有很大的提升空间。
关键词:创新行为;自愿性信息披露;深度学习;Word2vec
中图分类号:F23 文献标识码:A doi:10.19311/j.cnki.1672-3198.2020.02.057
0 引言
目前,中国已进入经济发展的新常态,创新驱动已成为加速企业形成新发展方式,提高整体质量和效益的新动力。在新的创新浪潮中,大量中小企业积极致力于技术创新,一些大型企业也不一定投身于所有的技术创新,他们可以购买外部技术,通过中小企业来实现其创新“副产品”的价值。随着大数据、互联网等信息技术的不断发展,企业越来越多的创新内容已经成为投资者评价企业发展的重要决策依据。中小企业较高的技术含量、良好的盈利能力以及快速增长使其成为创新和创业的重要生力军。中小企业充分披露创新行为信息则有利于其获得外部资金,推动其投资活动,从而达到资源的有效配置。
基于此,本文从创新意识、创新支持、创新管理、创新实现、创新推广、创新效果等方面研究中小企业创新行为自愿性信息披露评价问题,本文的贡献在于:一是创建中小企业创新行为自愿性信息披露评价指数;二是利用深度学习技术给出科学的评判方法。
1 文献回顾
创新行为信息披露最早可以追溯到Allen(1983)的研究,旨在节约高昂的长期知识保护成本。中国关于企业创新行为信息披露的研究起源于对无形资产研发信息披露的研究。薛云奎(2001)发现中国上市公司R&D费用信息披露不当或不充分,整体披露水平不高。后续学者使用内容分析法建立R&D或创新的信息披露指标,以评估信息披露的程度:韩鹏和彭韶兵(2012)构建R&D信息披露质量评价指标体系,然后利用熵值法测量和分析创业板上市公司2010年度报告中披露的信息质量;王娟和张世举(2014)从基于知识的无形资产、R&D投入、创新资金来源、创新效益和创新激励分配等方面评价中国信息技术产业上市公司技术创新信息披露发现:技术创新信息披露质量比新准则实施前有较大提高,但还是存在主动自愿披露积极性不高,重形式轻实质等问题;韩鹏和岳园园(2016)以我国创业板2012-2014年上市公司为对象,将创新行为信息披露分为强制性和自愿性,分析创新行为信息披露的经济后果;冯科和杜微(2016)以创业板市场为研究对象,将企业创新行为信息分为四个维度:公司战略规划、产品自主创新、新增知识产权、创新政策受惠,研究发现创业板上市公司创新信息披露能够导致股价异动。
还有学者将语料库语言学中“共现频率”运用到自愿性信息披露研究中,即相关关键词出现的频率越高,说明企业对此相关文本信息的披露意愿越大,表示管理层自愿性披露创新行为信息的倾向越大。Entwistle(1999)使用描述研发信息的句子数来衡量研发信息披露水平,从研发资源、研发产出、研发资金来源、研发后续投入保障等角度选取这些句子。王宇峰(2009)提出企业R&D信息披露的类目,包括:R&D战略及未来支出、R&D投入、R&D产出、会计问题、会计政策,选取句子数作为分析R&D信息披露的频率。James和Shaver(2016)的研究则是将含有研究、研发、专利、新科技等方面的词语搭配作为关键词,从中提取研发信息。王华(2018)考虑到中文语境语义判断难度,从表达能力和切分难度视角选择以“词”为研究对象,构建研发关键词库,以年报中相关词频统计度量研发文本信息披露程度。
由上述可见,创新行为信息多采用指标评价法人工处理信息,文本信息的搜集、整理和分析多归于人的主观判断,客观性略显不足,同时也存在着大样本研究困难等问题。而在目前我国自愿性信息披露普遍意愿不足的情况下,若将这种指标评价直接用于长时期、全行业的样本,则很难形成整体的有效评分。为此,本文则利用深度学习的神经网络计算技术自建处理模块,对中小企业板上市公司年报进行全样本提取与计算,使得创新行为自愿性信息披露评价更加科学。
2 基于Word2vec的文本挖掘
文本挖掘是要将文本转化为数据以供后续分析。最典型的方法是基于词袋的方法(Bag-of-Word,BOW)。所谓“词袋”就是装着词的袋子。该方法就是将一段文本,比如一个句子或一个文档,用一个装着词的袋子来表示。比如说有这样两句话,“技术创新带动产品创新,机制创新促进自主创新”,那么词袋里就是:[技术,创新,带动,产品,机制,促进,自主],用数组表现这两句话就是:[1,2,1,1,0,0,0],[0,2,0,0,1,1,1]。这里每组数据的维度就是词袋总数,而每项数据值则是各个词出现的频率。由此可见,随着句子增加,数组的维度将会变得巨大,而且会有大量的稀疏空间,即0的出现。为了解决这个问题,词向量的概念被引入。
词向量又称分布式表示(Distributed representation)。它最初是由Hinton在1986年提出的。词向量的构想是这样的,将构成文本的每个基本元素即单词,通过一定的训练,映射到由全部单词组成的低維向量空间,每个单词则形成向量空间中对应的一个点。因此,向量空间中的向量运算可用于处理单词与单词之间的关系,例如使用向量空间中两点之间的距离来表示两个单词之间的相似性。使用这种单词表示方式可以很好地克服词袋法的文本向量维度过大的缺点,因此两个单词含义越相似,向量空间中的距离就越近。这就将处理文本内容的方法转换为多维向量空间中的向量运算,向量空间上的距离即可表示文本语义相似度。 本文中使用的Word2vec是由Google的Mikolov在2013年提出的基于神经网络的深度学习算法。该算法将每个单词表示为实数值的向量,即所谓的词向量。Word2vec算法的基本构思是基于Bengio三层神经网络语言模型的改进。它由两个模型组成:(1)CBOW模型,它通过上下文预测当前词;(2)Skip-gram模型,它通过当前词来预测上下文。本文的目标是利用所给定的创新行为自愿性信息指标来计算各个上市公司的信息披露程度与其的相关性,因此采用Skip-gram模型来进行计算。
顾名思义,Skip-gram就是“跳过某些符号”,例如,句子“技术创新能够带动产品创新”有4个3元词组,分别是“技术创新能够”,“创新能够带动”,“能够带动产品”,“带动产品创新”,我们发现这句话的本意是“技术带动产品”或“创新带动产品”。但是,上述四个3元词组并未反映出此信息。 Skip-gram模型却允许跳过一些词,因此它可以形成名为“技术带动产品”的3元词组。如果允许跳过2个词,即2 Skip-gram,则上述句子组成的3元词组可以用表1显示。
由表1可以看出:一方面,Skip-gram反映了句子的真正含义,在新组成的18个3元词组中,有5个词组可以正确反映例句的真实含义。另一方面,语料库得到扩展,3元词组已从原来的4个扩展到18个,扩展后的语料库可以提高文本训练的准确性。可以看出,获得的词向量可以更好地反映文本的真实含义。
3 基于Word2vec的创新行为自愿性信息披露指标评价——以中小企业板为例
中小企业由于规模小、信用低、资源短缺、风险大等原因致使其融资相对困难,则促使其更有动机主动多披露自愿性创新行为信息以缓解其融资约束、提高投资效率。但是对中小企业管理层而言,在考虑市场进入障碍、企业竞争力以及披露成本和收益等,尚不清楚如何把握创新行为自愿信息的实际披露水平,由此,有必要建立科学的中小企业创新行为自愿性信息披露评估体系进行量化。
3.1 选择创新行为的自愿性信息披露指标
本文主要参考Botosan(1997)研究思路,结合的创新过程视角,构建创新行为的自愿信息披露指标。评估指标包括相互独立的6项内容和17项细分指标。披露内容涉及中小企业创新意识、创新支持、创新管理、创新实现、创新推广、创新效果等方面的情况,细分指标用于在年报中定位采集信息点。
3.2 研究样本及词频采集
本文选取2012年至2017 年深圳证券交易所中小企业板上市公司年报,分为 16 个行业类别,剔除金融行业和数据缺失的公司,最终每年获得515份有效样本;然后,从有效样本中筛选和提取创新行为自愿性信息披露相关词频,共计481个,如和创新文化相关的词频有:首先文化建设、创新思维、技术创新理念、科创立企、创新变革、崇尚创新、创新为先、改革创新、文化引领、特色企业文化,自主创新理念等;然后用Word2vec评估创新行为的17个自愿性信息披露指标的相似性,即中小企业创新行为的自愿性信息披露程度;最后将所有有效样本的相似度按行业、地区、年份等存储在 Excel表中。
3.3 基于Word2vec的创新行为自愿性信息披露程度评价的过程
本文利用开源软件包Word2vec以及其它辅助的开源软件包,在阿里云的配置为CPU64核内存128G云服务器上进行运算,通过以下五个步骤实现创新行为自愿性信息披露程度的自动评价过程(见图1)。
步骤一:为了方便后续处理,首先利用JAVA语言调用开源软件包PDFBox将采集到的中小企业板2013-2017年515家上市公司共计2575份年报PDF版转换成TXT文本。
步骤二:利用PYTHON语言调用开源软件包JIEBA将TXT文本进行分词。在此除了JIEBA自带的词典之外,还使用了会计专业词典以及自定义的词典以提高分词的准确率。
步骤三:在分词之后,利用PYTHON语言构建停用词表,去掉数字以及多次出现的与评价体系无关的词频,即停用词,如“情况、报告、适用、项目、董事会、独立、主要”等,经过反复测试,最后本文去掉排名前100个停用词,以减少机器读取相关指标信息的干扰,对文本进行过滤。
步骤四:使用上述预处理语料库制作全样本,使用PYTHON调用Word2vec并通过Skip-gram模型进行训练以获得词向量模型。对应词向量形式为W=(V1,V2,…,Vn),其中 W 为对应词汇,Vi(1≤i≤n)为词汇 W的第i个特征维度(一般n的值在100-500之间)。Word2vec提供了20个参数来调整训练过程。不同参数的选择对生成的词向量质量及其相应的训练速度有影响。熊富林(2015)的实验结果表明:各项指标对应的平均相关度随着维度的变化而变化,在维度达到250以后趋于平稳。由此本文将Word2vec在中文处理中的维度设置为256。本文使用的Word2vec的参数如表3所示。
步骤五:依据人工整理的481个反映创新行为自愿性信息披露词频,分17类指标进行文本相似度计算。利用以上训练得到的词向量模型,依次计算每份年报与指标之间的相似度, 即该中小企业创新行为自愿性信息披露的程度并以CSV格式输出。
3.4 評估中小企业板创新行为自愿性信息披露程度
总体而言,2012-2017年中国中小企业板创新行为的自愿性信息披露整体水平不是很高,但正在逐步上升。在样本期间内,平均披露程度由2012年的4838%增至2017年5391%(见图2)。下面分别从披露内容、行业、产权性质和区域等方面分析。
3.4.1 分析中小企业创新行为自愿性信息披露内容
中小企业板2012-2017年创新行为自愿性信息披露整体保持增长态势,评价结果发现:(1)创新意识上继续提高。其在头两年上升,2014年略有下降,然后在2014-2017的三年期间继续上升。这表明创新思维等受到重视,在不断地拓展。(2)创新支持方面虽然稳中有升,但披露程度在六项披露内容里是最低的,由此,中小企业还要通过人才激励、更新创新基础设施等措施做好配套的支持创新工作。(3)创新管理表现较好,增长态势趋于平缓。从2012年54.83%开始增长,2014年下降,后三年持续增长。得益于企业组织管理创新等不断开展,风险控制不断完善。(4)创新实现方面前三年处于波动水平,后三年为上升态势,2017年达到最高52.16%。创新实现依靠着企业的研发方式、制造能力等,通过这些方式使企业快速地发展。(5)创新推广方面表现最好,六年间大幅度提升披露程度。从2012年到2017年的一直上升,高达62.38%。随着互联网、人工智能的普及,营销创新等的推广,使企业的品牌形象等综合实力逐渐增强。(6)创新效果方面整体保持增长态势,除了2014年稍有下降。说明创新终将给企业带来良好的经济效益。 3.4.2 分析不同行业中小企业创新行为的自愿性信息披露程度
根据深交所中小企业板的样本得到14个一级行业,按照行业对2012-2017年创新行为自愿性信息披露综合实力进行对比评价。限于篇幅,本文主要描述和评价位居前三和后三的行业结果。住宿和餐饮业位居第一,前三年为下降趋势,后三年为上升趋势,到2017年达到56.82%。这反映出该行业普遍变动灵活,对创新有快速适应能力和把控力。租赁和商务服务业居第二,前两年披露程度为上涨,2014年稍有下降,接着从2015年的52.59%一路涨到2017年的53.88%;得益于国家的政策支持及产业结构转型升级的重要作用,该行业的综合实力获得快速提升。信息传输、软件和信息技术服务业位列第三,由于其与新兴技术具有较强的关联性,随着技术的迅速发展,行业信息披露水平也相应提升:2012年披露程度开始上升,2014年略有下滑,但后三年稳步上升。
最靠后的三个行业是交通运输、仓储和邮政业,房地产业和采矿业。三个行业的增长态势基本相同:前两年增长、2014年下降后稳定上升。由于三个行业属于传统制造业,对自然资源依赖度较高,产业结构转型和升级难度较大,创新行为难以形成行业核心竞争力。
3.4.3 分析不同产权下中小企业创新行为自愿性信息披露程度
根据上市公司产权性质,本文将2012-2017年中小企业板样本企业分为国有企业与非国有企业。非国有中小企业创新行为的自愿性信息披露程度发生了很大变化,2012年的披露程度为48.55%,然后开始有下滑,虽2015年有所上升,但2016年下降到最低点22.77%,2017年回升。国有中小企业创新行为的自愿性信息披露程度每年都有所不同,但变化幅度很小,控制在4%之内,2012年为36.53%,虽然在2013-2016年之间自愿性信息披露程度有增有减,但2017年还是上升到了37.58%,见表4。
从表4可以看出,国有中小企业创新行为的自愿性信息披露水平高于非国有中小企业,主要与国有中小企业的企业性质有关。首先,国有中小企业信息披露机制比较完善,主动披露意识强;其次,为了向社会传递良好的信号,国有中小企业披露了相对更多关于创新行为的信息。非国有中小企业创新行为自愿性信息披露程度不稳定与其融资困难相关,该类企业资金获取渠道比较狭窄,致使其投入到创新活动的资金相对不充足,导致其创新实现、创新推广和创新效果不能达到预期,进而影响到披露程度。
3.4.4 分析中小企业不同地区创新行为的自愿性信息披露程度
对2012-2017年中小企业板样本数据按东部、中部、西部和东北部划分,发现披露水平差距较小,排名具体如下(见表5):东部地区增长最快,从2012年的48.61%上升到2017年的54.79%,增长了11.28%。在样本期间,总体趋势在上升,但在2014年略有下降。主要是东部地区鼓励创新的政策较多,企业的创新行为也越来越多。东北地区排名第二,该地区从2012年的49.09%开始上升,到2014年有下降,之后三年披露程度呈上升趋势, 2017年达到54.99%。这说明该地区的中小企业较重视企业创新,而且积极地向外界披露企业有关创新的活动。中部地区排名第三,该地区的创新行为自愿性信息披露程度从2012年的48.43%一直上升到2017年53.23%。这说明中部地区企业越来越重视创新,信息披露制度日益完善,企业更加主动地披露有关创新的信息。西部地区排名最靠后,2012年披露程度是47.83%,2013年有所上升,但2014年又开始下降,随后在后三年呈上升趋势。这说明该地区自身经济发展慢,创新意识缺乏,相应的披露制度不规范,导致其披露水平落后于其他地区。
4 基于Word2vec的创新行为自愿性信息披露指标可靠性分析
4.1 Doc2vec模型与Word2vec所得出结果对比
Doc2vec是Mikolov基于Word2vec模型提出的针对句子以及短文的语言模型。Doc2vec本身也有两种模型,PV-DM和PV-DBOW,分别对应Word2vec的CBOW和Skip-gram。因此本文采用PV-DBOW作为比较。Doc2vec的评价流程与Word2vec完全一致,并选择同样的参数训练模型以便于对比。最后将利用Word2vec计算的结果与利用Doc2vec计算的结果做Pearson相关分析,得到0.956的结果。由此可见,这两种模型具有高度的一致性。
4.2 人工评判与Word2vec所得出结果对比
为保证评判技术结果的可靠性与准确性,本文随机抽取52家样本公司的技術评判结果与人工评判结果进行了对比。人工样本采用里斯特量表,17个指标分别按照披露程度从0-5分打分,不考虑权重的影响。最后将17个指标的分值做简单算术平均,取得中小企业创新行为自愿性信息披露得分。计算Pearson相关系数检验52家样本公司的技术评判结果与人工评判结果的相关性。可靠性分析表明,在0.01的显著水平下,人工评分与技术评分之间的Pearson相关系数为0.907,没有显著性差异。由此可以推断,技术评分与人工评分对上市公司的自愿性信息的评价结果较为一致,技术评分的可信度较高。
5 结论
本文根据中小企业板上市公司创新行为的各项自愿性信息披露指标,提取、收录和分析年报中是创新行为自愿信息,使用Word2vec进行文本挖掘和分析,判断中小企业板上市公司创新行为的自愿信息披露水平。通过技术评判结果与人工评判结果的比较,进一步调试评判技术,使其有效性达到可信度。本评判方法相对于人工评分,可以很大程度上提高阅读冗长年报的精确度和效率,减少遗漏问题,克服人为主观因素影响,使得中小企业板上市公司创新行为自愿性信息披露质量评价更客观、高效,为投资者的投资决策提供更科学的依据。但是,由于少部分报告的披露格式、语言风格等与大多数报告明显不同,这种评判方法在处理少部分报告时会产生一些误差,此外,未来上市公司报告语言可能会随着政策变化而改变,这些问题还有待进一步研究加以克服。 参考文献
[1]Allen R.Collective Invention[J].Journal of Economic Behavior and Organization.1983,4(1):1-24.
[2]薛云奎,王志台.R&D的重要性及其信息披露方式的改进[J].会计研究,2001,(03):20-26+65.
[3]韓鹏,彭韶兵.研发信息披露质量测度及制度改进[J].财经科学,2012,(07):103-110.
[4]王娟,张世举.企业技术创新信息披露:内容、现状与改进对策[J].河南科技大学学报(社会科学版),2014,32(02):70-75.
[5]韩鹏,岳园园.企业创新行为信息披露的经济后果研究——来自创业板的经验证据[J].会计研究,2016,(01):49-55+95.
[6]冯科,杜微.企业创新信息披露与中国创业板市场的有效性研究[J].新经济,2016,(16):26-39+4.
[7]Entwistle G M.Exploring the R&D disclosure environment[J].Accounting Horizons.1999,13(4):321-341.
[8]王宇峰,苏逶妍.我国上市公司研发信息披露实证研究[J].中南财经政法大学学报,2009,(4):108-113.
[9]James S,Shaver J M.Strategic motivations for voluntary public R&D disclosures[J].Academy of Management Discoveries.2016,2(3):290-312.
[10]王华,刘慧芬.产品市场竞争、代理成本与研发信息披露[J].广东财经大学学报,2018,33(03):52-64.
[11]Hinton G E.Learning distributed representations of concepts[C].Proceedings of CogSci.1986:1-12.
[12]Mikolov T,Sutskever I,C'hen K,et al.Distributed Representations of Words and Phrases and their Compositionality[J].Advances in Neural Information Processing Systems,2013,(26):3111-3119.
[13]Botosan C.Disclosure level and the cost of equity capital[J].Accounting Review,1997,72(3):323-349.
[14]熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报(工程技术版),2015,15(01):43-48.
转载注明来源:https://www.xzbu.com/2/view-15108169.htm