您好, 访客   登录/注册

基于时序预测和主成分分析的电视剧热度研究

来源:用户上传      作者:

  摘要:电视剧的热度是衡量电视剧质量水平的重要指标之一,在一定程度上反映了一个国家的文化软实力。在前人诸多研究基础上,利用自回归模型对收视率进行了时间序列预测,并对自回归模型进行了平滑滤波改进,实现了更好的预测性能。之后,对10个影响电视剧热度的因素进行了综合分析,并利用主成分分析的方法降低维度,最终得到了综合考虑各种因素的热度指标。利用新定义的热度指标对2017年电视剧进行排序,发现该指标与单一的收视率或播放量相比,确实更能反映出电视剧的综合影响力。
  关键词:自回归模型;主成分分析;播放量;收视率;电视剧热度
  中图分类号:F27文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.10.029
  1前言
  电视剧是社会文化和潮流的重要载体,其中优秀的电视剧一直引领着时代的潮流趋势。传统的电视剧质量衡量指标以收视率为主,随着“多屏播放”时代的到来,播放量也渐渐成为衡量电视剧影响力的重要指标。然而,无论是单纯的收视率还是单纯的播放量,都不足以客观、全面地衡量一个电视剧的热度。
  针对这一问题,国内有很多专家学者已经进行过研究。毋世晓等人提出视频的点击量和搜索次数会随着开播时间的推移而呈逐渐下降的趋势,而邢亚彬等人在研究成果中指出收视率可能由于样本等原因使收视率受到较大影响。周小普等人在《多屏发展背景下网络收视度的影响因素研究——以热播电视剧为例》中引入了“多屏指标”来衡量上电视剧的热度,为播放量和收视率的研究提供了非常大的参考价值。
  在前人工作的基础上,本文建立并优化了自回归模型,并进行了平滑滤波优化,对研究对象电视剧的收视率变化趋势进行了预测;之后,创新性地对10个影响电视剧热度的因素进行了综合分析,并利用主成分分析的方法降低维度、最终得到了综合考虑各种因素的热度指标。
  2数据来源与预处理
  在所有的国产电视剧中,本文选取了具有代表性的电视剧样本作为研究对象。电视剧的筛选标准主要有以下几个方面:
  (1)多屏播出:在至少一个电视卫视和至少一个网络视频平台上全集播出过,具有“收视率”和“播放量”两个物理指标。
  (2)近三年首播:互联网环境比较类似,不会因为网络环境发展的差异造成对结果的影响。例如《西游记》和《还珠格格》等经典收视神剧不会在我们的考虑范围内。
  (3)豆瓣评分高于6分,平均收视率高于1%:以这两个指标选定了电视剧的质量标准,以口碑好、影响力较大的电视剧为研究对象。
  通过以上三个指标的筛选,最终选定了11部电视剧作为本文的研究对象,它们分别是:《女医·明妃传》、《三生三世十里桃花》、《琅琊榜》、《人民的名义》、《于成龙》、《欢乐颂1》、《欢乐颂2》、《守护丽人》、《好先生》和《克拉恋人》。
  本文采集的数据都是从官方权威数据库获取到的,其中包含:
  (1)收视率数据:索福瑞媒介研究(CSM)公司公布的52典型城市收视率数据,数据提供了研究对象电视剧在播期间每天收视率。
  (2)电视剧信息:来源于百度百科数据,包含了电视剧的类别、主演、首播时间、主要内容等诸多电视剧相关信息。
  (3)社交网络数据:来源于百度贴吧、微博、豆瓣和百度搜索指数等主流搜索及社交平台,数据具有更高的真实性和全面性。
  3对收视率的时序预测和分析讨论
  本文首先对选取的电视剧研究对象建立了二阶自回归模型,研究每一集收视率与前面几集的关系。该模型的建立基于如下基本假设:
  (1)收视率具有一定的稳定性,观众口碑和关注程度是连续变化的,不会发生突变。
  (2)不同年份的电视剧收视率统计方法是一致的,数据之间具有可比性。
  对于口碑好、收视率高的研究对象,本文首先建立了二阶自回归模型。由于电视剧收视率是按播出天数统计的,所以在我们的模型中,描述的是某天收视率与前两天收视率之间的关联性。假设δt代表电视剧热播期间第t 天的收视率,则AR(2)模型表达式为:
  δt=a+bδt-1+cδt-2
  以2017年现象级热播剧《人民的名义》为研究样本,利用电视剧热播期前29天的收视率数据作为训练集、最后3天的数据作为测试集,使用excel的数据分析工具进行拟合,得到拟合的结果为:
  δt=0.252-0.021δt-1+0.996δt-2
  该模型拟合优度为0.8911。之后在测试集上测试该模型的预测性能,最后三天的真实收视率为[6.682,6.695,6.666],预测值为[6.233,6.452,6.551]。经过计算,均方根误差为0.179682942。通过训练集结果和测试集结果的分析,可以看出该模型具有不错的预测性能。
  通过对数据进一步研究发现,大部分异常点(收视率明显低于趋势线的日期)均为当日只播放一级电视剧的日期,故而这种异常的收视率是有一定成因的。为了进一步优化模型,降低部分收视率异常点波动性对模型系数造成的影响,本文在自回归的基础上,加入了移动平均的优化,对曲线进行平滑滤波,降低了异常值带来的影响。即将原本的AR(2)自回归模型优化为自回归滑动平均模型。
  经过移动平均的平滑处理后,收视率的整体增长趋势和原始数据保持一致,但异常点的影响大大降低。利用前29天的移动平均收视率作为训练集,训练二阶自回归模型,表达式为 δt=a+bδt-1+cδt-2 。得到的訓练集结果为:
  δt=0.123-0.621δt-1+1.610δt-2   此时拟合优度增长至0.97,两个拟合系数均通过了0.05显著性水平检测。测试集的真实值为 [6.202,6.5,6.681],预测值为[6.028,6.265,6.472]。经过计算,相关系数达到0.994,均方根误差位0.2363。由此通过对比可以看出,ARMA模型与AR模型相比,在保留数据增长趋势的同时,弱化了异常点带来的影响,得到了更好的拟合结果。
  4利用主成分分析建立多因素自定义热度模型
  4.1确定热度值影响指标
  在当前“多屏播出”的时代,分集播放量、收官前后播放量和收视率都有各自的局限性并且无法反映一部剧集准确的热度,因而我们引出自定义的热度计算方法。
  具体来说,在我们的模型中主要考察以下几个方面的因素变量:
  (1)播放量、收視率:传统的评价指标,衡量了观众观看电视剧这一基本行为的数量。这一节中选用集平均播放量、收视率来作为每一部电视剧的收视评价指标。
  (2)豆瓣评论数:包括短评数与剧评数,评论越多代表更多观众观看电视剧后进行了对电视剧的进一步反思。
  (3)豆瓣评分、评分人数:衡量了观众对电视剧的主观评价,评分人数代表电视剧受关注程度。
  (4)开播前、后一个月搜索指数:衡量了观众对电视剧的关注度,开播前的搜索指数受到电视剧的宣传力度、演员名气等影响;开播后搜索指数受到电视剧内容、热议程度等影响。
  (5)微博粉丝数:包括男女主微博粉丝量及电视剧官微粉丝量,我们认为演员的微博粉丝量衡量了演员的受关注程度,而受关注多的演员,即明星出演的电视剧会受到更多的观众关注。
  (6)相关视频数:包括官方发布的预告片、新闻发布会视频,但更多的是网友个人发布的花絮剪辑等,相关视频越多,说明电视剧更具社会影响力,也会吸引更多潜在观众。
  (7)周边月销售指数:电视剧创造的商业利润,衡量了观众对电视剧及剧中人物的喜爱程度。月销售指数计算方法如下:
  月销售指数=商品价格×该商品月销量
  选取各周边商品月销售指数的最高值代表该电视剧的周边月销售指数。
  4.2利用主成分分析的方法建立模型
  这里通过Matlab主成分分析函数princomp实现具体步骤,利用主成分分析的方法,依照以下步骤依次进行计算分析:
  (1)计算相关系数矩阵。
  7个变量两两计算相关系数,一共计算33次,形成 7×7 阶的相关系数矩阵
  Ar={aij|i∈1,7,j∈1,7}
  矩阵中的每个变量代表两个因素数据的相关性。例如 aij 就表示第 i 个因素和第 j 个因素的相关性,相关性的计算方法为:
  r(x,y)=Cov(x,y)Var[x]*Var[y]
  相关性可以用excel的correl(x,y)函数计算。在本章节中,使用matlab编程求解。
  (2)计算主成分的累计贡献率。
  经过计算,前4个主成分的累计贡献率达到89375%,分别是38.34%、20.43%、16.43%和1434%,达到允许范围内。所以以4个主成分为反应热度水平的标准。
  (3)计算主成分载荷。
  通过计算结果反应,四个主成分的主要载荷的指标为:
  C1主成分在播放量和收视率两个特征上具有较大载荷,说明第一个主成分主要反应的是电视剧在多屏上受关注的程度。
  C2主成分在豆瓣评论人数、微博粉丝数等相关特征上有较大载荷,说明该主成分主要反映的是电视剧在社交网络上的影响力。
  C3主成分在搜索指数和豆瓣评分上具有较大载荷,说明该主成分主要反映出剧集口碑和观众的期待程度。
  C4主成分在相关视频和周边月销量指数两个特征上具有较大载荷,说明该主成分主要反映了该电视剧的周边影响力。
  (4)得到最终结果。
  最终,该电视剧的整体影响力由四个主成分决定,权重系数由贡献率确定,即
  Index=0.3834C1+0.2043C2+0.1644C3+01435C4
  而每一个主成分的表达式为:
  C1=0.438x1+0.596x2-0.243x3+0.192x4+0.245x5+0.164x6-0.006x7
  C2=-0.029x1+0.283x2+0.020x3-0.062x4+0.638x5+0.274x6-0.085x7
  C3=0.132x1+0.156x2-0.043x3+0.492x4+0.145x5+0.464x6+0.506x7
  C4=0.138x1+0.231x2+0.133x3-0.093x4+0.143x5+0.064x6-0.167x7
  4.3利用多元热度评价模型进行热度排序
  由此我们可以给出2017年热度值前十名的电视剧榜单,2017年1-7月电视剧的实际网络总播放量与本文得出榜单对比如表1。
  通过与2017年电视剧网络总播放量排行榜的对比,从整体上看,本次自定义热度值的效果较为理想,更能够体现出一个电视剧的综合影响力。
  5结论
  本文利用自回归模型对收视率进行了时间序列预测,并对自回归模型进行了平滑滤波改进,实现了更好的预测性能。本文还对7个影响电视剧热度的因素进行了综合分析,并利用主成分分析的方法降低维度、最终得到了综合考虑各种因素的热度指标。
  在后续的研究中,我们将继续从以下几个方面进行完善:
  (1)继续完善模型,在掌握更多的数学方法和机器学习理论知识以后,可以尝试应用人工神经网络等非线性拟合方法来预测收视率和播放量的增长趋势。
  (2)深入探究分析,对播放量和收视率的讨论可以更加细致入微,在很多评价指标上可以进行量化分析、突破定性分析的局限性。
  (3)全面考虑各种指标,在时间精力允许的情况下进行一定的问卷调查,通过周围人的评价来检验新的热度指标的接受程度。
  参考文献
  [1]周小普,韩瑞娜,凌姝.多屏发展背景下网络收视度的影响因素研究——以热播电视剧为例[J].国际新闻界,2014,(12):114-129.
  [2]侯卫星,高建中.基于因子分析法的城市低碳经济实证评价——以太原市为例[J].企业经济,2012,(06):15-19.
  [3]张辉,王雯聪.基于多元统计分析方法研究电视剧收视特征及影响因素[J].现代传播(中国传媒大学学报),2011,(06):101-103+126.
  [4]耿金花,高齐圣,张嗣瀛.基于层次分析法和因子分析的社区满意度评价体系[J].系统管理学报,2007,(06):673-677.
  [5]何跃,蔡博驰.基于因子分析法的微博热度评价模型[J].统计与决策,2016,(18):52-54.
转载注明来源:https://www.xzbu.com/2/view-14893199.htm