您好, 访客   登录/注册

生物信息学实验教学中的网络资源及其利用

来源:用户上传      作者:

  摘要 生物信息学是一门新兴的交叉学科,生物信息学实验在生物信息学教学中占有重要地位。总结了生物信息学实验教学中网络资源的使用和检索方法,并将其在生物信息学实验教学中进行了应用,取得了良好的教学效果,为培养创新应用型人才奠定了基础。
  关键词 生物信息学;实验教学;网络资源
  中图分类号 S-01;Q811.4文献标识码 A
  文章编号 0517-6611(2019)11-0276-03
  doi:10.3969/j.issn.0517-6611.2019.11.081
  开放科学(资源服务)标识码(OSID):
  Abstract Bioinformatics is a new interdisciplinary subject, and bioinformatics experiment plays an important role in the teaching of bioinformatics. This paper summarized the methods of using and searching network resources in the experimental teaching of bioinformatics. These methods were applied in the experimental teaching of bioinformatics, and good teaching effect was achieved, which laid the foundation for training innovative and applied talents.
  Key words Bioinformatics;Experimental teaching;Network resources
  基金项目 2017年度临沂大学教学质量工程项目“教育信息化研究课程”;2018 年度山东省本科教改项目(M2018X059);临沂大学2014年校级生物科学特色专业项目。
  作者简介 张渝洁(1968—),女,山东临沂人,副教授,硕士,从事遗传学和生物信息学研究。*通信作者,教授,博士,从事动物遗传和生物信息学研究。
  收稿日期 2019-01-06;修回日期 2019-03-14
  生物信息学(Bioinformatics)是生物和信息技术的结合,是现代科学的又一分支学科,是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科[1]。作为一门生命科学和信息技术的交叉学科,生物信息学从其诞生之日起就迅速成为世界各国学术界瞩目的焦点领域。生物信息学的研究对象——各种分子生物学数据是在全世界各个实验室中产生的,然后再提交到相应的数据库中。生物信息学发展的源动力来自于从实验中获得的海量数据,基于这些数据建立的生物信息数据库以及新的在线软件工具开发[2]。由此可见,生物信息学是一门实践性很强的课程,生物信息学实验的开设对于培养学生的操作能力、创新能力和综合分析能力非常重要。开展生物信息学实验教学中网络资源利用的探索,构建信息化环境下生物信息学有效的实验课堂教学模式,实现教育信息化与现代化,提升学校办学水平,促进学生的全面发展,培养创新创业型人才,全面提高教学质量,具有重要的实践意义。
  1 生物信息学实验教学中的网络资源
  1.1 常用数据库
  1.1.1
  核酸序列数据库。核酸序列数据庫综合了DNA或RNA序列数据,其数据源于众多的研究机构和核酸测序小组以及科学文献。数据库中的每条记录代表着一条单独的、连续的、附有注释的DNA或RNA片段。目前的核酸序列数据库主要包括GenBank、EMBL、DDBJ三大核酸序列数据库。其中,GenBank数据库包含了所有已知的核酸序列和蛋白质序列以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(The National Center for Biotechnology Information,NCBI)建立和维护的,从1979年开始建设,于1982年正式运行[3]。EMBL(The European Molecular Biology Laboratory)核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,于1982年开始服务[4],查询检索可以通过因特网上的序列提取系统(SRS)服务完成。DDBJ(DNA Data Bank of Japan)数据库由日本于1984年开始建立,于1987年正式服务[5],也是一个全面的核酸序列数据库,与GenBank和EMBL核酸库合作交换数据,使用其主页上提供的SRS工具进行数据检索和序列分析。
  1.1.2 蛋白质序列数据库。蛋白质序列数据库是指应用计算机功能分析生物学信息的数据库。它应用计算机的运算法则,比较DNA和蛋白质序列,检测结构、功能和序列之间的进化关系。蛋白质序列数据库主要包括SWISS-PROT、PIR(Protein Information Resource)、TrEMBL、UniProt(Universal Protein)等。SWISS-PROT是一个集试验结果、计算特征和科学结论于一体的高质量、带注释、非冗余的蛋白质序列数据库,由瑞士日内瓦大学创建,由瑞士生物信息学研究所和欧洲生物信息学研究所共同维护和管理,是目前最常用、注释最全、包含独立项最多的数据库[6]。PIR是一个蛋白质信息学的公共信息源及支持服务于一体的资源网站,致力于基因组学和蛋白质组学的研究及科学探索,是一个全面的、经过注释、非冗余的蛋白质序列数据库[7]。TrEMBL是瑞士生物信息学研究所的蛋白质序列数据库SWISS-PROT的一个增补本,增加了一些SWISS-PROT数据库所没有的欧洲分子生物学实验室核甘酸序列。UniProt是信息最丰富、资源最丰富的蛋白质数据库,由整合SWISS-PROT、TrEMBL和PIR 三大数据库的数据而成,其数据主要来自于基因组测序项目完成后后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能信息[8]。   1.1.3 蛋白质结构数据库。蛋白质结构数据库即生物大分子三维空间结构数据库,主要有PDB(Prorein Data Bank)、MMDB(Molecular Modeling Database)等。PDB是1971年创建的国际上最著名、最完整的蛋白质三维结构数据库,由美国Brookhaven国家实验室维护管理,其数据是通过X射线晶体学、核磁共振波普学或逐渐增加的低温电子显微镜获得的,以文本格式储存数据[9]。MMDB是由实验确定的三维生物分子结构数据库,提供了丰富的3D结构数据库和大量的潜在功能注释,由NCBI维护管理[10]。
  除了以上综合数据库以外,还有很多专题数据库,主要有共表达数据库、代谢和调控路径数据库、基因组数据库、文献数据库、真核生物启动子数据库、基因注释数据库、基因分类数据库、真核生物基因表达调控因子数据库、转录因子和基因表达数据库、真核生物DNA中重复序列数据库、微卫星重复序列数据库、分子探针数据库、灵长类mtDNA调控区序列库、植物顺式作用调控因子数据库、miRNA数据库、IncRNA数据库、甲基化数据库等。
  1.2 常用在线分析工具
  1.2.1
  Expasy工具。ExPASy(Expert Protein Analysis System)由瑞士生物信息学研究所维护(Swiss Institute of Bioinformatics,SIB),即专业蛋白质分析系统,是SIB生物信息学资源门户,提供生命科学不同领域的数据库和软件,包括蛋白质组学、基因组学、系统发育学、群体遗传学、转录组学等,可以从许多不同的SIB组以及外部机构找到资源。
  1.2.2
  BLAST工具。BLAST(Basic Local Alignment Search Tool),是基于序列相似性的数据库搜索程序,即基本局部比对搜索工具,一种快速序列比较的新方法。BLAST搜索使研究人员将查询序列与序列数据库进行比较,并识别出与某个阈值以上的查询序列相似的库序列。BLAST工具主要应用于DNA和蛋白质序列数据库的直接搜索、motif搜索、基因鉴定搜索以及长DNA序列中多个相似区域的分析。
  除了上述2个重要的在线工具以外,还有引物设计(Primer3、MethPrimer)、启动子预测(Promoter Scan)、开放阅读框预测(ORF Finder)、多序列比对(MUSCLE、Clustal Omega、ClustalW2、T-Coffee)、在线绘图工具(Venn、WEGO、CIRCOS、IBS)、circRNA分析(CIRCexplorer)、可視化通路图分析(iPath)、基因代谢通路注释(KEGG)、基因组可视化(UCSC)、RNA-seq在线分析(RAP)、基因外显子、内含子和UTR注释(AUGUSTUS)和domain区域特征展示(GSDS)等在线工具。
  2 网络资源在生物信息学实验教学中的应用
  根据以上网络资源,结合学生的知识水平和自身特点,在生物信息学实验教学中除了基础实验外,设计了以下综合性实验。
  2.1 数据库检索
  数据库检索的目的是让学生掌握在线Entrez和SRS检索方法,熟悉SWISS-PROT蛋白质序列数据库的查询,了解GenBank数据库平面文件(Flat file)和蛋白质结构数据库中的PDB文件。在实验过程中,根据学生已有的分子生物学知识,让学生任意选择某个基因关键词进行检索。例如,脂蛋白脂肪酶(LPL)基因,输入LPL关键词后依次点击各个数据库查看,使学生对Flat file和PDB文件界面、结构组成有一个直观的认识,学生可对感兴趣的内容链接点击、查看、阅读,加深了学生对分子生物学相关知识的理解和认识,同时在查询过程中也使学生直接接触到英文界面,加强了专业名词的学习。
  2.2 序列比对和序列相似性搜索
  序列比对是将2个或多个序列按照一定的规律排列在一起,确定序列之间的相似性或同源性,直观观察序列的变异,以便揭示整个基因家族的特征。在生物信息学实验教学中,多序列比对使用较多的在线工具主要有MUSCLE、Clustal Omega和T-Coffee。这些序列比对工具的特点是精确、快速。给定学生某个基因,下载不同物种的核苷酸和氨基酸序列,然后使用这些在线比对工具进行多序列比对,描述一组同源序列之间的亲缘关系,以便了解一个分子家族的基本特征,寻找motif和保守区域等,进一步应用到分子进化分析中。两序列比对常使用BLAST在线工具,通过BLAST搜索数据库可以查询基因或蛋白质序列可能具有哪些功能、来源于哪个物种以及属于哪种功能基因的同源基因等。
  2.3 系统发育树的构建
  为了分析不同物种之间的亲缘关系,根据生物的核苷酸或蛋白质序列构建系统发育树,以便了解生物的进化历史过程。构建系统发育树最常用的软件是MEGA,该软件界面友好,初学者容易上手,操作简单,结果清楚、直观。让学生下载不同物种某个基因的核苷酸或氨基酸序列在多序列比对的基础上,采用邻接法构建系统发育树,选择Bootstrap检验,从而在分子水平上确定不同物种之间的亲缘关系,认识物种进化的历史。
  2.4 蛋白质结构与功能预测
  蛋白质结构包括蛋白质的一级、二级、三级和四级结构,还包括蛋白质构象中二级结构和三级结构之间的一个层次——超二级结构。蛋白质结构和功能预测是生物信息学所追求的最重要目标之一,它在结构基因组学、药物设计和蛋白质设计领域有着广泛应用,其目的是让学生了解蛋白质结构与功能的常用网站和软件,学会蛋白质结构和功能预测的方法,属于综合性较强的实验。学生在前期学习和实验的基础上,充分利用网络资源(主要是Expasy在线工具)来预测蛋白质的理化性质、亲疏水性、跨膜区结构、卷曲螺旋、翻译后修饰位点、信号肽、结构域等,加深了学生对蛋白质结构和功能的认识和了解,巩固了生物化学和分子生物学的理论知识体系。   3 教学效果
  根据生物信息学实验课程的特点以及国内外生物信息学发展的趋势,以学生将来进一步深造为导向,对课程设置和教学计划进行改革,加强实践教学环节。在教学过程中更新了生物信息学实验教学内容,实验中注重学生独立思考、独立操作能力的提高,注重学生科研能力的训练,吸收本科生参与科研活动。通过教学增强了学生利用网络资源在线分析实际问题的能力,加强了学生对理论学习内容的理解和掌握,提高了学生观察问题、解决问题的能力,进一步拓宽了学生的知识面,调动了学生的学习兴趣,提高了生物信息学实验的教学质量,取得了较好的实践教学效果。该课程在生物科学和生物技术专业开设以来,学生受益匪浅,在近几年毕业生考研工作中再创佳绩,这得益于学生较强的实践能力以及在考研面试中学生对导师提出的有关生物信息学大数据分析等研究热点问题的理解和正确回答。2016—2018年,通过该课程的学习让学生自行设计生物信息学相关本科毕业论文,取得了显著效果,课程组指导的学生已发表4篇生物信息学方面的学术论文,并获得3项国家级大学创新创业项目。
  4 结语
  随着大数据时代的到来,生物信息学优势日益突显,生物信息学网络资源不断更新和充实。通过生物信息学实验课的学习,加深了学生对基础理论的理解,提高了学生实践操作和分析问题的能力,对于培养创新应用型人才、提高学生的综合素质和就业竞争力具有重要意义。在今后的教学工作中,随着教学经验的积累,需要从教学内容、教学方法和手段等方面进行进一步改革,不断总结经验,充分挖掘网络资源,紧跟生物信息学发展的前沿,以取得更好的教学效果。
  参考文献
  [1] HOGEWEG P.The roots of bioinformatics in theoretical biology[J].PLoS Comput Biol,2011,7(3):1-5.
  [2] 石晓卫,张靖,王林嵩.應用型专业生物信息学教学体系改进与实践[J].生物学杂志,2018,35(4):124-126.
  [3] BENSON D A,BOGUSKI M S,LIPMAN D J,et al.GenBank[J].Nucleic acids research,1998,26(1):1-7.
  [4] STOESSER G,MOSELEY M A,SLEEP J,et al.The EMBL nucleotide sequence database[J].Nucleic acids researchs,1998,26(1):8-15.
  [5] TATENO Y,FUKAMIKOBAYASHI K,MIYAZAKI S,et al.DNA Data Bank of Japan at work on genome sequence data[J].Nucleic acids researchs,1998,26(1):16-20.
  [6] BOECKMANN B,BAIROCH A,APWEILER R,et al.The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003[J].Nucleic Acids Res,2003,31(1):365-370.
  [7] WU C H,YEH L S,HUANG H,et al.The protein information resource[J].Nucleic Acids Res,2003,31(1):345-347.
  [8] The UniProtConsortium.UniProt:A hub for protein information[J].Nucleic acids researchs,2015,43:204-212.
  [9] BERMAN H M.The Protein Data Bank:A historical perspective[J].Acta Crystallogr A,2008,64(1):88-95.
  [10] WANG Y L,ADDESS K J,CHEN J,et al.MMDB:Annotating protein sequences with Entrez’s 3Dstructure database[J].Nucleic Acids Res,2007,35:298-300.
转载注明来源:https://www.xzbu.com/1/view-14907207.htm