您好, 访客   登录/注册

基于用户行为数据的学术博客影响力评估研究

来源:用户上传      作者:

   摘要:借鉴学术影响力评估理论,分别计算均值测度指标和高影响测度指标下的学术博客影响力。设计均值测度和高影响测度统计量,借助R语言编程技术,计算博客用户影响力测度指标。研究表明,均值测度指标不适合于博客用户影响力评估。文章基于博文的被评论次数和被推荐次数两个观测量计算得到的学术博客博文影响力h指数,能有效评估学术博客影响力。不同观测年度的h指数存在较大差异,这反映了博客用户发表博文的持续性。
   关键词:学术博客;h指数;R语言;影响力
   一、前言
   学术社交网站的出现和发展,吸引了大量的学者加入社区进行学术分享和交流。学术博客(Academic Blog)是学术社交网站的一种典型形式,它的存在和发展不仅可以帮助科研工作者推广学术成果,提升自身的学术影响力,还可以拓宽学术社交关系以促进更广泛的科研合作。
   对学术博客的概念学界缺乏统一的界定,史新艳等认为广义学术博客是指博客的内容与学术知识相关,狭义学术博客还要求博客用户须为某领域的学术专家。吕鑫等根据“学术”和“博客”的定义,认为“学术博客”是用于发布和交流教学、科研等的博客。甘春梅等通过调研与分析总结出学术博客是由科研人员撰写的以讨论学术相关问题为主的博客。从现有的研究可以看出,国内学者对学术博客的界定从争议逐渐形成共识,认为学术博客是专业学术社交平台,与一般的为学术社交提供服务的平台不同。
   科学网博客是中文语境下学术博客典型代表之一。现有的研究主要呈现两个方向,一是将博客视为提供各种服务和应用的平台,以平台为研究对象,从平台的功能和服务出发,研究学术社交平台的价值、发展规律和发展方向;二是以用户为研究对象,通过调查问卷等方式获取用户使用意愿或基于用户的客观行为数据开展研究。
   基于用户客观行为数据的研究更为直接。张晓阳等运用文献计量理论,基于博文及其点击量构建学术博客h指数评价科学家博客;卢露等基于博文主题,从博文数量和质量角度建立博客影响力评估模型;李墨珺从作者身份、准确性、时效性、固定链接、引用来源五个方面评价博文质量。周春雷提出链接内容分析法评估用户影响力;郑超等将博文的评论次数纳入博客影响力评估模型;赵传彪通过系统分析博客用户行为数据特征设计用户评价指标体系。曹冲选取博客发文数、精选博文数、好友数等指标评价博客影响力;王琛利用Delphi法和层次分析法确定指标权重,构建学术博客影响力评价模型。
   本文以博文为媒介,从用户发表博文数量和互动质量两方面设计指标体系。借鉴文献计量的均值测度和髙影响特征测度学术评价指标,借助R语言编程技术计算博文互动影响力h指数评估博客影响力。
   二、理论与方法
   学术客体的数量和质量是评价学术主体的学术绩效的最为直接的数据。博客发文量(B)越大,表明其分享意愿越强,与其他用户互动的几率越大,其发布的博文会引起其他用户的好奇进而阅读、建立好友关系等,借此博客内容可以被更多人知晓,从而产生较大影响力。借助于博文推荐次数(Rds)和评论次数(Cts)等指标表征博文质量。
   (一)均值测度
   均值测度是单位时间内博文统计量的篇均值。按照年度观测博客所有发表博文的篇均推荐次数(Rds/B)、篇均评论次数(Cts/B)等,本文应用R语言函数scale实现统计量的标准化处理,构造统计量M:
   M=mean(scale(Rds/B)+scale(Cts/B))
   (二)高影响特征测度
   h指数是典型的髙影响特征测度,根据h指数的推论,定义观测统计量C为博文互动量如下:
   C=Rds+Cts
   参照学术论文h指数的定义,统计量C定义为博文互动量,借以表征博文质量。若将博客用户的每篇博文的C值大小倒叙排列,则可以在(B,C)曲线上得到表征博客用户影响力大小的h指数,表示博客用户至少有h篇博文的互动量C值不低于h。
   (三)加权高影响特征测度
   根据不同时间窗口测算的h指数有较大差异,反映了博客发表博文的连续性、持久性。
   为此,本文根据统计时间窗口测算了10年、5年、2年三个时间段的h指数(H10,H5,H2),再构造统计量H如下:
   H=W1*H10+W2*H5+W3*H2
   称H为加权高影响特征测度指标,简称为加权H指数。
   其中,
   W1=sum(H10)/(sum(H10)+sum(H5)+sum(H2))
   W2=sum(H5)/(sum(H10)+sum(H5)+sum(H2))
   W3=sum(H2)/(sum(H10)+sum(H5)+ sum(H2))
   三、数据来源与数据处理
   本文数据来源于科学网博客,2017年11月16日通过Python语言自动获取。获取的原始数据简单的人工处理后得到543位用户的208331条博文记录。网络平台记录的博客好友数、博客主页访问量、博客在线时长、博客活跃度等指标与博客的影响力正相关。统计每位博客用户使用情况可得到用户行为数据如表1所示。
   四、结果分析
   博客用户的好友数、活跃度、主页访问量和在线时长等行为指标的统计数据概览情况如表2所示。
   (一)均值测度指标结果分析
   结果表明,博文数量对均值指标有较大影响,Top10当中超过50%的博客只发表了1~2篇博文,但因其自身的社会影响较大(例如施一公,Id=46212),其博文的互动指标亦较大。m10反映了平台自上线开始博客用户的博文统计量的篇均值情况,m10均大于零。m5和m2存在值为零的情况,则在该观测年度内存在发文量或统计量为零。越是有影响力的用户在平台上应该越活跃,只有在平台上建立广泛的好友关系,长时间、高频率使用博客并持续贡献高质量内容才会是平台上具有高影响力的用户。这类用户的均值测度指标虽然较大,但是除了个别用户,他们的好友数、活跃度、主页訪问量和在线时长等指标都比较小,且远低于指标对应的平均值,采用均值测度指标评价博客用户影响力具有明显的局限性。    (二)高影响特征测度和加权高影响特征测度结果分析
   2年期h指数可以发现高影响力新用户,5年或10年期的h指数可以发现老用户,这些用户能够持续地发表有较大影响力的博文。h值的大小可以显著地反映用户高互动博文的分布情况,h值越大则高互动博文数量越多,用户影响力也越大。通过横向对比不同观测年度的h指数,发现不同观测年度的h指数存在较大差异,这反映了博客用户发表博文的持续性。计算结果显示,h值大的用户,其好友数、活跃度、主页访问量和在线时长等指标均表现较好,除了个别用户指标值低于平均值,大部分用户的各项指标均显著高于平均值,该现象反映出h值大的用户在平台上十分活跃。他们在博客平台上持续贡献优质内容,为自己建立了广泛的人脉关系,具有较高的活跃度。
   加权H指数是不同观测年度h指数的加权平均值,加权H指数大的用户,他们的好友数、活跃度、主页访问量和在线时长等指标均表现较好,除个别用户指标值低于平均值,其他用户均显著高于平均值。从H值的分布情况看,克服了高影响特征测度指数h变化不灵敏这一缺点,新用户通过一定时间的积累也能积累出较高的H值。以杨正瓴(Id=107667)为例,虽然在2008年便注册了博客,但直到最近两年才开始在平台上活跃,他在两年内发表了43篇高互动量的博文,占其总博文数的78.18%,而其H值排名达到了59位。
   五、结论与不足
   研究表明,三种测度方法中,均值测度指标计算的数学逻辑存在明显的缺陷,指标的计算虽然同时考虑到了博文数量和统计观测量的大小,但是简单的均值计算容易将极端情况(博文数量极小但统计观测量很大)视作用户的影响力;高影响特征测度只考虑了特定观测年度内高互动博文的数量,而忽视了不同用户在不同观测年度下的用户特征差异,使得指标的设计存在不足;加权髙影响特征测度不仅克服了均值测度指标的数学逻辑缺陷,也弥补了高影响特征测度忽视用户在不同观测年度下特征差异的不足,整合考虑了不同观测年度下,用户发文质量和发文数量对用户影响力评估的作用,较好地进行量化分析用户间的具体差距。
   本文尚存在以下局限。首先,影响博客用户影响力的因素有很多,综合H指数仅仅反映了一个方面,比较适用于评价博文数量大的用户。此外,具有不同特征的用户在线学术社交行为可能存在较大的差异,需要更多的数据来证实,以科学网博客为例,精选博文用户数以千计,样本数量更大,可以作为后续研究核心用户使用行为特征的数据源。
   参考文献:
   [1]贺靓.科学网博客研究[D].湖南大学,2014.
   [2]史新艳,肖仙桃.国外学术博客研究进展与趋势[J].情报资料工作,2010(02).
   [3]吕鑫,袁勤俭,宗乾进,等.学术博客研究述评[J].图书情报工作,2012(06).
   [4]甘春梅,王伟军.学术博客的概念、类型与功能[J].信息资源管理学报,2015(01).
   [5]吴钢.博客对图书情报学传统学术交流影响的实证分析[J].情报资料工作,2009(03).
   [6]张琦,徐志武,贺钰滢.科学网博客用户价值研究[J].知识管理论坛,2017(04).
   [7]徐佳宁,孙婧.基于社会网络分析的博客自组织实证研究[J].情报探索,2014(12).
   [8]王曰芬,王怡,贾新露.学术博客核心用户内容创作行为特征研究[J].图书与情报,2017(03).
   [9]张晓阳,李晓亮.科学家博客h指数评价及其相关性分析[J].图书情报工作,2010(02).
   [10]卢露,丁才昌.社区中最具影响力博客的探测模型[J].计算机科学,2011(S1).
   [11]李墨珺.博客质量的评价及其对学术交流的影响[J].情報资料工作,2008(02).
   [12]周春雷.链接内容分析视角下的科学网博客评价探索[J].图书情报知识,2012(04).
   [13]郑超,陈峰.科学家博客h指数与科学家h指数相关性分析[J].图书馆学研究,2013(03).
   [14]赵传彪.基于科学网的图书馆学学者学术影响力的评价与研究[J].图书情报工作,2015(S1).
   [15]曹冲.科学网图情博主学术影响力分析[D].郑州大学,2017.
   [16]王琛.学术博客影响力评价研究[D].山西财经大学,2018.
   [17] 叶鹰.国际学术评价指标研究现状及发展综述[J].情报学报,2014(02).
   (作者单位:江苏大学科技信息研究所)
转载注明来源:https://www.xzbu.com/2/view-15109668.htm