您好, 访客   登录/注册

基于生物学通路的癌症分类研究

来源:用户上传      作者:

  摘要:尽管基因标志物已广泛成功应用,但是仍存在很多问题。其一是在疾病的发展和治疗反应中识别出的很多基因标志物缺乏合理的生物学功能解释,其二是针对癌症这种异质性疾病,基因标志物的可重复性是一大挑战。基于此,本文提出了一个以生物学通路为特征的分类方法。实验结果表明该方法在分类性能上优于基于以基因为特征的分类算法。
  关键词:生物学通路;分类;癌症
  0引言
  随着用于全基因组表达谱分析的高通量技术的出现,研究人员提出了许多方法来发现癌症相关驱动基因作为指导癌症诊断和预后的生物标志物。然而,对于癌症这种高度异质性疾病,这些基因特征往往是不具有可重复性的。此外,诸如噪声、测量误差和大量的基因假说等等因素也会阻碍实验结果的可重复性。同时,发现的这些癌症相关驱动基因列表与疾病进展或治疗反应相关的生物学过程往往很难建立联系,生物学意义不清晰。随着研究的深入,人们越来越认识到基于通路的分析可以克服上述缺陷。通过将基因水平数据折叠成紧凑、功能性的通路水平数据,不但可以压缩特征,还可以减少过拟合,提高概括性,同时保持生物可解释性。
  1算法描述
  本文提出了一种基于生物学通路的癌症分类方法。首先通过Pathifier算法把基因水平数据转换成通路水平数据,然后基于相关特征选择(correlation feature selection.CFS)进行特征选择,最后基于选择后的特征使用SVM分类模型在测试集上进行分类效果评价。为了验证本文方法的有效性,文中方法与基于基因生物学标记的癌症分类方法进行了比较分析。
  1.1Pathifier算法
  Pathifier算法通过单个癌症样本下通路对所有控制样本下通路中值的偏离程度来计算单个癌症样本下的通路分数。下面详细描述Pathifier算法原理。
  假设给定通路基因列表K(|K|≥3)。基因表达数据根据通路基因列表构建|K|维空间,每个基因代表一个维度,空间中的每个点代表一个样本。所有的样本点构成|K|维空间中的点云,设样本点个数为n。然后根据Hastie and Stuetzle算法在点云中寻找主曲线f(λ),其中λ为主曲线的点,如图1A所示,不同颜色的点代表不同表型下的样本。假设x为空间中的点,其对应的λ由公式(1)求得。
  找到主曲线f(λ)后,样本X投影到曲线,f(λ)上最近的点就代表该样本在主曲线上位置,如图1B所示。由部分正常(Normal)样本形成的质心为主曲线的起始点,如图1A所示。则每个样本下的通路分数就等于该样本在主曲线上的位置沿曲线到起始点的距离,
  基于Pathifier算法,基因水平数据就可以转换成通路水平数据。
  1.2特征选择
  通过把基因表达值转换为通路水平得分,基因表达矩阵转化为通路得分矩阵。为了优化预测模型,本文采用一种基于关联的特征选择(Correlationbased Feature Selection.CFS)方法。CFS是一种过滤型(Filter)特征选择算法,其启发式的筛选与表型高度相关且彼此不相关的特征子集作为预测特征。不相关的特征被忽略,因为其与表型具有很低的相关性。冗余特征应被剔除,因为其与一个或多个剩余特征高度相关。
  1.3算法评价
  本文选用SVM算法构建分类模型。数据集根据表型分层随机抽样分成3部分,三分之二用于特征选择和训练,三分之一用于测试。评价指标为评价分类性能的常用指标,分别为准确率(Accuracy)、召回率(Recall)、精确率(Precision)、F值(F-score)、ROC曲线下面积(AUC)。
  其中,TP(Trile Positive)即真阳性,是指属于类别C被分类成类别C的样本个数、TN(TrueNegative)即真阴性,是指非类别C而被分成非类别C的样本个数;FP(False Positive)即假阳性,是指非类别C被分成类别C的样本个数:FN(FalseNegative)即假阴性,是指属于类别C而被分成非类别C的样本个数,
  2数据集
  实验中的验证数据集(ID=GSE25066)下载自GEO。GSE25066数据集共包含488个样本,其中病理完全缓解(pathologic conplete response.PCR)样本99个,残留病灶(residual disease.RD)样本389个。这个数据集是乳腺癌关于新辅助化疗(neoadiuvantchemotherapy.NAC)效果的数据集。PCR样本通过新辅助化疗达到病理完全缓解的患者,RD样本是对新辅助化疗不敏感的患者。研究表明通过新辅助化疗达到PCR的患者,无病生存(disease freesurvival.DFS)以及总生存(overall survival.OS)均得到显著的提高。
  实验中通路数据来自KEGG(Kvot0Encyclopedia0f Genes and Genomes)通路数据库(PA7HWAYdatabase)。1995年,日本京都大学生物信息学中心的Kanehisa实验室人工构建了KEGG数据库,是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。KEGG通路基因集下载自ConsensusPathDB网站(http://consensuspathdb.org/)。经过筛选,选出281个Homo sapiens(hsa)通路作为本文实验用通路数据。
  3实验结果与结论分析
  Pathifier算法在基因表达矩陣转化为通路得分矩阵时,由于有3个通路包含的基因个数少于3个,所以实际应用中只有278个通路成功转化。基因表达数据中,PCR样本往往比RD少很多,存在着类别不平衡现象。为了消除类别不平衡对基分类器的影响,在类别多的RD样本中随机抽取PCR样本个数的RD样本来平衡数据集,即从RD样本中随机抽取99个样本。通过CFS算法最终筛选出32个特征用于训练模型,最后在测试集上评估算法性能。为了验证方法的有效性,本文所提方法与文献[7]中基于基因特征方法进行了比较分析,实验结果如图2、图3所示。本文基于通路(pathway)方法的准确率、召回率、精确率、F值和AUC分别为65.15%,78.78%,61.90%,69.33%,69.74%。由图2、图3可以看出,本文方法整体性能要优于基于基因的方法。
  4结束语
  针对以基因为特征分类算法的特征不可重复性和相关特征的生物学意义不明确,本文提出了一个以通路为组学特征,结合相关特征选择(CFS)和分类算法预测乳腺癌用药反应的方法。实验结果表明,本文方法的分类性能优于基于基因为特征的分类算法,而且生物学通路的生物学意义明确,为在功能机制上深入了解癌症致病机理提供了新的途径。
转载注明来源:https://www.xzbu.com/8/view-15125505.htm