乳腺癌的统计研究
来源:用户上传
作者:
摘要:采用logistic回归,逐步回归以及假设检验等统计知识,对Coimbra 乳腺癌的数据(http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra)分类分析,得到BMI,Glucose,Insulin,HOMA,Resistin等五个变量为影响乳腺癌的主要变量,并且得到了各个变量前的系数。与此同时,计算了预测准确率其中健康人群的预测准确率为75%,癌症患者的预测准确率达到了77%。为了进一步证明模型的可行性,我们采用了假设检验进行检验,通过p值和t值可以看出我们得到的变量都通过了检验。
关键词:乳腺癌;logistic回归;逐步回归;假设检验;p值
中图分类号:F24文献标识码:Adoi:10.19311/j.cnki.16723198.2019.08.042
1序言
乳腺癌是发生在乳腺上皮组织的恶性肿瘤,乳腺并不是维持人体生命活动的重要器官,原位乳腺癌并不致命;但由于乳腺癌细胞丧失了正常细胞的特性,细胞之间连接松散,容易脱落。癌细胞一旦脱落,游离的癌细胞可以随血液或淋巴液播散全身,形成转移,危及生命,所以目前乳腺癌已成为威胁女性身心健康的常见肿瘤。在全球范围内,乳腺癌是女性的主要癌症类型,占所有病例的25%。在2012年,它导致了168万例新病例和522000例死亡。影响乳腺癌发病的因素有很多,本文旨在通过对于乳腺癌发病者特征的数据收集整理,运用多元线性回归的知识拟合出一个具体的模型,从而探究乳腺癌发病的某些规律,找出影响乳腺癌的主要因素,以及这些因素和乳腺癌之间的相关关系。利用相关的统计检验对建立的模型就行检验,并配以统计的相关软件R语言对搜集的数据进行计算机模拟建模。所使用的R语言软件的版本为R-3.4.4。相应的数据获取地址为:http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra 。该数据来源于:Miguel Patrício(miguelpatricio '@' gmail.com),José Pereira (jafcpereira '@' gmail.com),Joana Crisóstomo (joanacrisostomo '@' hotmail.com),Paulo Matafome(paulomatafome '@' gmail.com),Raquel Seia(rmfseica '@' gmail.com),Francisco Caramelo(fcaramelo '@' fmed.uc.pt),all from the Faculty of Medicine of the University of Coimbra and also Manuel Gomes (manuelmgomes '@' gmail.com) from the University Hospital Centre of Coimbra 获取的日期为:2018年3月6日。
乳腺癌的病因尚未完全清楚,研究发现乳腺癌的发病存在一定的规律性,具有乳腺癌高危因素的女性容易患乳腺癌。所谓高危因素属于与乳腺癌发病有关的各种危险因素,而大多数乳腺癌患者都具有的危险因素就称为乳腺癌的高危因素。发展乳腺癌的危险因素包括女性、肥胖、缺乏体育锻炼、饮酒、更年期激素替代疗法、电离辐射、月经初潮、较晚生育或根本没有孩子、年龄较大、乳腺癌的既往史,家族史等。
本文在了解乳腺癌的当前现状后,使用统计学的手段。首先收集数据,来自于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra 。通过分析数据的结构,该数据的应变量为二分类数据,适用于统计的Logistic回归的研究。采用Logistic回归,逐步回归,假设检验等统计手段我们得到合适的模型,找到影响因子以及模型的参量。
4总结
本文采用logistic回归,逐步回归以及t检验和F检验等统计知识,对Coimbra 乳腺癌的数据进行分析,得到相应的统计模型。根据该数据本身具有的应变量为类别变量,我们相应的选取logistic 模型,又在建模的过程中为了进一步的优化所得到的模型,我们选取逐步回归的方法得到了BMI,Glucose,Insulin,HOMA,Resistin等五个变量为影响乳腺癌的主要变量,对应的我们得到了他们相应的系数关系,最后为了说明模型的可行性,我們采用了假设检验,并通过t值和P值可以看出我们得到的变量都通过了检验。与此同时,采用我们的方法和这组数据,我们对预测的结果计算了预测准确率,其中健康人群的预测准确率为75%,癌症患者的预测准确率达到了77%。但是值得注意的是:
(1)数据里面的y值是1表示健康人群,2表示乳腺癌患者,但在我们的模型中为了使用logistic回归的方便,我们把y值为1的部分都全部用0表示,也就是说健康人群最终模拟的结果应该是预测为0的部分。同理,y值为2的部分全部用1表示,也即,乳腺癌患者的结果预测值应该为1。
(2)由于实际的数据是连续的实数,所以我们得到的y值不会确切的等于0或者1,为此我们在处理的过程中,在y值大于0.5的时候记为1,其他记为0。
但是,对于乳腺癌的研究在以前有相当一部分的研究。本文最终得到的结果是基于数据而来的,对于不同的研究机构会有不同自变量的数据,所以得到的影响乳腺癌的因素和本文的不一致也就是理所当然的。为此,本文在接下来的工作中应该查阅更多的资料以及搜集更多的数据为研究乳腺癌做出更多贡献。
参考文献
[1]全球癌症报告2014[R].世界卫生组织2014.
[2]Selvaraju,Balasubramaniam,D.Rajendran,D.Kannan and M.Geetha.Multiple linear regression model for forecasting Bluetongue disease outbreak in sheep of North-west agroclimatic zone of Tamil Nadu,India[J].Oringnal Research,2013:321324.
[3]吴高凤,刘庆晓.应用统计基础.[M].北京:中国人民大学出版社,2017.
[4]汤银才.R语言与统计分析[M].北京:高等教育出版社,2008:166169.
[5]Diane J.Berry.,Karani S.Vimaleswaran,John C.Whittaker,Aroon D.Hingorani,Elina Hyppo¨ nen.Evaluation of Genetic Markers as Instruments for Mendelian Randomization Studies on Vitamin D[J].Plose One,2012,7(5):37465.
[6]Breast Cancer Coimbra Data Set[DB/OL].2018.
[7]Patrício,M.,Pereira,J.,Crisóstomo,J.,Matafome,P.,Gomes,M.,Seia,R.,& Caramelo,F.Using Resistin,glucose,age and BMI to predict the presence of breast cancer[J].BMC,2018.
[8]David Hallac,Jure Leskovec,Stephen Boyd.Network Lasso:Clustering and Optimization in Large Graphs[J].ACM,2015.
转载注明来源:https://www.xzbu.com/2/view-15167149.htm