您好, 访客   登录/注册

改进的二项分布模型及其参数估计

来源:用户上传      作者:

   摘要:二项分布b(n,p)是一种应用较为广泛的离散型分布.在实际应用中,常常需要对参数p进行估计;但当总体参数p较小时,样本中目标事件出现的频率为0,此时对参数p采用传统的矩估计具有一定的局限性,使其估计结果出现=0.针对这种局限性,本文提出一种基于二项分布的改进模型,该模型及其估计方法在一定程度上能克服传统矩估计方法在处理参数p较小时的不足.
   关键词:二项分布;改进模型;参数估计
  中图分类号:O212  文献标识码:A  文章编号:1673-260X(2019)06-0009-02
  1 引言
   对于二项分布b(n,p)中抽取的样本,若p较小,样本中目标事件出现的频率极低,甚至为0;此时该如何对总体参数p进行估计?利用传统的矩估计和极大似然估计,得到的=0,该结果几乎没有意义,因为可能根据对事件的认知发现概率不可能为0;国内外已有对二项分布中比例参数估计改进的相关研究,张学新[1]针对p值接近于0或1的极端情形下对17种置信区间的选择方法进行比较.Alan Agresti[2]等人对分类数据分析中参数的最优置信区间进行了探讨.徐鹏鹏[3]针对二项分布应用的局限性,通过构造矩方程和极大似然方程可求出估计参数.
  2 二项分布的简介
   随机试验中仅有两个结果A与A,且A发生的概率P(A)=p;对于该随机试验独立重复进行n次,则称为n重伯努利试验.若以随机变量X表示n重伯努利试验事件发生的次数,则在n重伯努利试验中事件A发生k次的概率
  P(X=k)=Cnkpk(1-p)n-k k=0,1…n
  上式称为二项分布[4],记为X~b(n,p).
   对该模型中参数p进行估计,若采用传统的矩估计和极大似然估计方法得出=(k表示样本中目标事件发生的次数).
   由于二项分布中概率计算的复杂和烦琐性,尤其当参数n较大时.针对二项分布在一些特殊情形下,有不同的近似计算方法.比如利用泊松定理、棣莫弗-拉普拉斯中心极限定理分别给出了二项分布的泊松近似、正态近似[1].
  3 基于二项分布改进的模型
  3.1 模型的构建
   在实际实验中,由于试验场地、人员、设备等条件的影响,试验单元的个数受到了限制;假设一次试验中有n个试验单元;若这n个试验单元中目标事件发生的次数独立的服从b(n,p),上述试验可以看作一次n伯努利试验.若研究的目标事件发生概率极小,则在一次n重伯努利试验中该事件未发生,此时若对参数p进行估计得到=0;根据对事件的认知,该事件发生的概率肯定不为0,可以得出该估计显然不合理;例如,国外有一项研究在车险定价中需估计汽车保险杠在一次碰撞中脱落的概率,该事件发生的概率较小;若采用重复试验的方式进行研究,重复试验的次数会受到场地和设备的限制,会出现试验已全部进行完目标事件仍未发生.
   针对上述问题,本文构建如下模型:
   第1次n重伯努利试验,若事件A发生的频率为0;则进行第2次n重伯努利试验,若事件A发生的为频率0;则继续进行第3次n重伯努利试验……直到出现事件A发生的频率不为0为止,记发生在第K次n重伯努利试验.以随机变量Y表示事件A在第K次n重伯努利试验中发生的次数.
   假设事件发生的概率为p,各试验单元之间是相关独立的.离散型随机变量Y的分布列可表示如下.
  4 结语
   二项分布是现实生活中常见的一种分布,应用范围较广;实际应用中涉及参数p的估计问题,传统的矩估计和极大似然估计方法适用的范围是参数p不宜过小.对于一些小概率事件传统的矩估计和极大似然估计极易出现估计值为0,导致与现实不符.本文提出了一种基于二项分布的改进模型,在一定程度能克服传统估计方法的不足.
  参考文献:
  〔1〕张学新.极端频率情形下二項分布比例置信区间的比较[J].重庆师范大学学报(自然科学版),2016,33(3):91-97.
  〔2〕Agresti A,Coull B. Approximate better than‘exact’for Cls for binomial parameters[J].American Statistician,2008,52:119-126.
  〔3〕徐鹏鹏,苏本跃.改进二项分布的性质及其应用[J].安庆师范学院学报(自然科学版),2016,22(4):11-13.
  〔4〕盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,2009.
  〔5〕张艳.谈二项分布的近似计算及其在保险问题中的应用[J].鸡西大学学报,2012(1):45-46.
转载注明来源:https://www.xzbu.com/1/view-14920256.htm