您好, 访客   登录/注册

公益性数字保存的经济价值之价值考

来源:用户上传      作者:

  摘  要:《图书馆论坛》2014年第九期的“公益性数字保存的经济价值”一文,以ESDS为例,收集了大量调查资料,进行了理论探索,尤以“权值系数”进行成本分析为重。资料采录是基础,数据分析是支柱;概念不能含糊,原理必须清晰。基于这样的认识,该文着重从资料采录、数据分析两个方面,试图探究、考量其价值,以期推动讨论深入持续。
  关键词:数字保存  资料采录  数据分析  成本  价值
  中图分类号:G250.253                            文献标识码:A                         文章编号:1672-3791(2019)03(a)-0240-02
  Abstract: The 9th " Library Tribune " in 2014" The economic value of public welfare nature of the digital preservation " one article, taking ESDS as an example, collecting a large number of survey data, designing the four forms of digital preservation of economic value; exploring the theory, especially the "weights" cost analysis for heavy. Data acquisition is the foundation, data analysis is the pillar; concept can not be vague, the principle must be clear. Based on this understanding, this paper focuses on the two aspects of data acquisition and data collection, trying to explore concerns the value of this paper, in order to in-depth discussion can continue.
  Key Words: Digital preservation; Data acquisition; Data analysis; Cost; Value
  “公益性數字保存的经济价值”一文(作者:臧国全、李哲。以下简称“价值”,发表于2014年第九期的《图书馆论坛》),以ESDS(Economic and Social Data Service)为例,设计了数字保存经济价值的4种表现形式,包括保存价值、用户收益与净经济价值、效率影响、保存特藏收益等,尤以“权值系数”进行成本分析为重。该文是国家自然科学基金项目“数字保存经济要素与经济评价研究”(项目编号:71173197)的研究成果之一,笔者在此从资料采录、数据分析两个方面,着重探究、考量其关于“成本”分析的价值。
  1  关于调查资料的价值
  “价值”一文涉及资料庞杂,全部取自2012年ESDS。作为英国经济和社会科学数据的分布式数字保存服务项目,ESDS是该领域科学研究、教学和学习的重要数据库,其数字资源分为5个类型,为所有用户提供完全免费的访问服务。作者首先以非抽样调查,得到了统计表,内含当年有效用户数量及访问数字资源的总次数V、数字资源提交总次数U,以及访问与提交次数在各类型资源的分布状况,并掌握了有效用户数量M,明确了用户年均访问次数L=V/M。这些基础工作是必要的,也是清晰的(见表1)。
  与此同时,原文还就平均值的获得进行了一系列搜集整理工作。一是以访问需收费为假设,就用户的“支付意愿”(即用户为获得访问服务而愿意支付的金额)进行了调查,结果显示每户的年平均支付意愿为B=962,而每次的平均支付意愿为b=48.5;二是以访问不再向新用户开放为假设,就原用户的“接受意愿”(即转让访问权时愿意接受的价格)进行了调查,结果显示每户的年平均接受意愿为A=1,576;三是调查每次数字“资源提交的平均耗时”,以“最近一次提交耗时”T=185h来代替;四是用户每次数字“资源访问的平均耗时”,以ESDS用户“最近一次访问耗时”t=0.41h来代替。关于支付意愿、接受意愿的平均值,是怎么考虑的?有无加权分析,是否合理?都不得而知。至于提交、访问耗时的平均值,以最近一次的情形代替总体的平均水平,其合理性、背景是什么?这些平均值,是基于全面调查还是抽样调查或者其他调查,其数据价值如何?是非常需要斟酌的,因为事关成本分析的成败。
  “价值”一文存在数据混乱引用随意的现象。例如,关于2012年有效用户数量M,原文在“效率影响”等分析中,均以M=23000人为有效用户数量,并据此分析给出了一系列计算结果;然而在“支付意愿”“接受意愿”等分析中,原文却又采用了M=32000人这个数据,进而在随后的分析中都以这个数字为依据。以这样随意的讨论结果,与“实际拟合”不严肃。
  “价值”一文给出了样本容量为N1=894的“用户访问抽样调查”,并配合各类型分布情况表(见表2)有说明:依数字资源5个类型的划分,表的左边“类型1”之列,表明选择类型1资源的用户,分仅仅单独选择类型1的、同时选择类型2的、同时选择类型3的、同时选择类型4的、同时选择类型5的等5种情形,其用户数依次为422、79、206、65、80个,选择类型1的用户合计为852个;其余各列类推。然而依此表述,仅仅访问5个类型中一个类型的用户(见表中斜线),其累加就达422+208+404++167+209,远大于样本容量N1即894。原文关于样本容量为N2=193的“数字资源提交抽样调查”,也存在着类似问题。这两个抽样调查,其价值大打折扣。但愿这只不过是我们理解有问题。   2  关于数据分析的价值
  “价值”一文的大量篇幅,是论及权值系数的重要性并酌定,进而进行成本分析。原作者通过各类型分布情况表以3个步骤,分析得出了关于访问结果的“权值系数”Y=1.137。其步骤1明确了访问各类型的用户分布状况,并在的各类型分布情况表右半边,第一行给出了49.5、18.8、25.5、18.0、17.6这5个数字,即422/852、79/420、206/807、65/362、80/455,依次表示抽到的第1、2、3、4、5类资源的访问者当中,第一类资源的访问者占其中的百分点,其余各行类推。
  紧接着的“步骤2”,是将这各行的百分点相加,得到表最右一列的“分布系数”,这样做有着致命的缺陷,因为每一横行的各百分数来自不同的母体,它们的相加本身没有道理,即或计算结果与实际情况拟合度高,也是偶然性所致;即使各类型分布情况表等给出的信息本身无可质疑,这个求分布系数的“步骤2”完全误入歧途,因而步骤3所做的,即在步骤2基础上结合表1得到的“权值系数”Y,已然没有价值;原文中用这样的“权值系数”去修正已经得到的平均值,更是劳而无功。
  同样的问题,“价值”一文关于“数字资源提交抽样调查”,并分析得出关于提交结果的“权值系数”Z=0.984739,也存在类似的致命缺陷。
  为了确保结果的准确性,可以尝试比之合理的如下分析:以各类型分布情况表右半边类型1所在列的各比例数同乘以f1即14.8,类型2所在列的各比例数同乘以f2即2.8,类型3所在列的各比例数同乘以f3即59.9,类型4所在列的各比例数同乘以f4即2.1,类型5所在列的各比例数同乘以   f5即20.4,相应地得到估计值表(见表3)。
  这个表最右边一列的“估计值”,是各横行百分数相加的结果。自上而下依次用来估算类型1到类型5各资源的访问量的分布,用以重新考察文中各平均值。
  该文笔者注意到一个尴尬的现实,就是不少人对于“平均”的概念不是很清楚,对于“加权平均”,就更是含糊不清了。“价值”一文非常遗憾,作者没能正确使用“平均值”的概念。两个权值系数Y与Z,在该文随后的访问成本、提交成本,以至用户支付意愿、接受意愿等分析中,被多次使用;其作者更在原文“2 調查结果的加权处理”部分,有大量论述,突显了对平均值的重视;全文始终力求通过权值系数,更好地得到相关数据的平均水平。然而恰恰是由于平均值使用上的问题,导致理论分析存在着重大缺陷。
  参考文献
  [1] 臧国全,李哲.公益性数字保存的经济价值[J].图书馆论坛,2014(9):35-43.
  [2] G·N·曼昆.经济学原理[M].北京:北京大学出版社,2012.
  [3] 李子奈,潘文卿.计量经济学[M].北京:高等教育出版社,2010.
转载注明来源:https://www.xzbu.com/8/view-14828211.htm