您好, 访客   登录/注册

基于距离函数的蛋白质超二级结构β―α―β模体预测

来源:用户上传      作者:

  摘 要:蛋白质超二级结构β-α-β模体是蛋白质的重要组成部分,所以对蛋白质超二级结构的研究是非常有意义的。根据蛋白质超二级结构的保守性,用距离函数值对蛋白质中β-α-β 模体进行识别,训练集5交叉检验预测总精度和相关系数分别是64.12%和0.31。距离函数应用于独立检验集进行检验预测精度达到71.14%。
  关键词:蛋白质结构预测;β-α-β 模体;距离函数
  中图分类号:Q51 文献标识码:A DOI:10.11947/nyyjs.20160509001
  引言
  2个平行的β-strand被较长的loop连接,loop中间包含α螺旋(α-helical),并且2个β折叠片之间存在氢键,形成的结构模体β-loop-α-loop-β叫做β-α-β 模体,它是含有平行的β折叠(sheet)的蛋白质中的常见模体[1,5] ,它频繁的出现在每一个具有β折叠片的蛋白质结构中,在蛋白质结构中占有重要地位。因此,对β-α-β模体的统计分析及预测是十分有意义的。
  在本文中,建立了β-α-β模体预测的数据库,整理并使用了2个蛋白质数据库分别作为预测的训练集和独立检验集,并且发展了距离函数来预测β-α-β 模体,得到了较好的预测结果。
  1 材料和方法
  1.1 材料
  数据库选取了EVA的1423个相似性小于33%的蛋白质,作为训练集[4],同时选取了426个非冗余的蛋白质链组成,序列相似性小于25%,分辨率小于2.0?,作为独立检验集。对训练集,获得二级结构为ECHCE模式的片断为3878个,利用PROMOTIF[3]获得β-α-β模体分别为1622个,与ECHCE模式相匹配的1459个片断确认为β-α-β,其余2419个确认为非β-α-β;对独立检验集,有257条蛋白质链中至少包含一个β-α-β模体,这个数据库中共得到310个β-α-β模体和480个非β-α-β 模体。
  1.2 最佳序列片段长度的选取
  蛋白质超二级结构是由二级结构单元所组成,而超二级结构的构象类型与连接肽所连接的二级结构单元的种类、连接肽的长度以及连接肽残基的构象密切相关,下面对序列对应的每一种二级结构进行详细的统计和分析,过程如下:
  对模体β-α-β模体和非β-α-β模体中的氨基酸长度进行统计,见图1。在β-α-β模体中,最少为8个氨基酸,最多为60个氨基酸,平均是28.5个氨基酸;在非β-α-β模体中,最少为6个氨基酸,最多为86个氨基酸,平均为22.2个氨基酸。而对于全部ECHCE模式,含有6~29个氨基酸的序列数占85.7%。
  通常情况下超二级结构模体的预测是来自序列预测,因此,要选取适合的序列信息。由图1分析,选取33个氨基酸是最佳序列模式长,能够包含比较全面的序列信息。
  固定序列长的选取:当序列长为奇数时,序列的左侧比右侧多取一个氨基酸残基,当序列长为偶数时,序列两侧取相同的残基数。若序列不足33个氨基酸残基的,两侧添加空位补齐。获得β-α-β模体1121个,非β-α-β模体1890个。
  上述选取方式,参考了Kuhn[2]、Kumar[4]和Cruz[3]等的对β发夹固定模式片段截取方法。
  1.3 方法
  1.3.1 距离函数
  距离函数可以衡量所研究的样品之间存在的相似性,已被成功的应用于蛋白酶的预测研究。距离函数的计算公式如下:
  1.3.2 精确评价指标
  为了评价预测的正确率和预测方法的可信度,精度 (S)、Matthew相关系数 (Mcc)、 β-α-β模体的敏感性(Sn)、非β-α-β模体的敏感性(SnN)、β-α-β模体的特异性(Sp)和非β-α-β模体的特异性(SpN) 如下计算:
  p为真阳性样本序列数,r为真阴性样本序列数,u假阴性样本序列数,o为假阳性样本序列数。
  2 结果与讨论
  2.1 距离函数的预测结果
  本文使用了距离函数对蛋白质超二级结构进行5交叉检验,得到了的预测结果见表1。Mcc的值为0.31,总精度为64.12%。由此可见,距离函数是一种预测蛋白质结构的有效方法。
  2.2 独立检验集中 β-α-β模体预测结果
  为了检验预测方法,对独立检验集中的β-α-β和非β-α-β模体使用同样的方法进行预测。预测结果见表2。
  由表2的预测结果可以看出,独立检验集中的Mcc 值0.41,预测总精度71.14%,结果是非常好的。
  3 结论
  本文使用的数据库包含的蛋白质结构类型有全β型、α+β型和α/β型,选择的数据库远远大于Taylor和Thornton在1983年和1984年对β/α类的18个蛋白质中的62个β-α-β模体进行预测的数据库[5-6],而且本文第一次运用了距离函数进行预测,预测效果说明:应用的参数包含了模体的序列信息和结构信息;距离函数的引入, 更反映出了距离函数应用于蛋白质超二级结构是成功的;因此距离函数是一种预测蛋白质中复杂超二级结构的有效方法。
  参考文献
  [1] 阎隆飞,孙之荣.蛋白质分子结构[D].清华大学出版社1999,43-59.
  [2] Kuhn, M., Meiler, J. and Baker, D. Strand-loop-strand motifs: prediction of hairpins and diverging turns in proteins[J]. Proteins: Struct Funct Bioinform, 2004(54): 282-288.
  [3] Cruz, X., Hutchinson, E. G., Hepherd, A. S. et al. Toward predicting protein topology: an approach to identifying B hairpins[J]. Proc Natl Acad Sci, USA, 2002(99): 11157-11162.
  [4] Kumar, M., Bhasin, M. BhairPred: prediction of β-hairpins in a protein from multiple alignment information using ANN and SVM techniques[J]. Nucl Acids Res, 2005(33): 154-159
  [5] Taylor, W. R., Thornton, J.M.Recognition of super-secondary structure in proteins[J]. J Mol Biol. 1984 ,173(4): 487-512
  [6]杨科利,李前忠,林昊.预测酵母(Yeast)基因转录因子结合位点[J]. 内蒙古大学学报(自然科学版),2006, 37(5): 524-53
  作者简介:王春连,女,内蒙古包头市,讲师,硕士研究生学历,从事生物信息学的研究。
转载注明来源:https://www.xzbu.com/1/view-11192360.htm