您好, 访客   登录/注册

银杏转录组数据中EST-SSR位点的生物信息学分析

来源:用户上传      作者:

  摘要:银杏(Ginkgo biloba L.)是雌雄异株植物,其植株价值因性别不同而异。银杏转录组数据中EST-SSR位点的生物信息学分析将为银杏遗传学研究开展提供重要的理论与方法支持。首先通过高通量测序技术获得银杏大、小孢子叶球转录组数据,然后开展数据拼接组装与EST-SSR位点挖掘及相应的生物信息学分析。转录组数据处理及拼接组装后共获得108 307条unigenes,然后利用MISA软件发掘银杏转录组数据中的SSR位点,最终从8 178条unigenes中检索出9 668个SSR位点。其中,单核苷酸重复的数量最多,有5 663个;其次是二核苷酸和三核苷酸,重复数量分别为2 471、1 438个;四核苷酸至六核苷酸重复的数量相对较少,共有96个。银杏转录组EST-SSR位点共包含147种重复基元。在单核苷酸重复中,A和T是优势重复基元类型,分别有2 808、2 685个;在二核苷酸重复基元中,AT与TA数量较多,分别为469、383个,所占比例为34.48%。此外,设计得到6 809对银杏EST-SSR位点特异引物。银杏转录组EST-SSR位点的发掘将为银杏遗传图谱构建、遗传性状分析、幼年期性别鉴定方法的建立等提供有力的理论与方法支持。
   关键词:银杏;转录组;SSR位点;重复基元
   中图分类号:S664.301   文献标志码: A  文章编号:1002-1302(2020)03-0090-05
   微卫星序列(simple sequence repeat,SSR)是指由1~6个核苷酸为重复单位组成的串联重复序列,如Tn、(AG)n、(ATG)n、(ATGC)n等,在真核生物基因组中随机分布。不同物种间SSR位点的分布差异较大,主要表现在基序类型、重复长度以及在染色体上的分布情况等,从而反映出物种间高水平的等位基因多样性。虽然不同物种间SSR位点的差异性较大,但是SSR位点两端的序列比较保守,因此可以根据SSR位点两端的保守序列设计特异性引物以获得其长度多态性,即SSR分子标记。SSR分子标记技术除了具有操作简单、易检测、共显性、稳定性好等优点外,还具有特异性强、等位基因变异多、受选择压力小等特点[1]。开发SSR分子标记的传统方法所需费用高、工作量大,并且成功获得阳性克隆和多态性引物的概率偏低[2]。当前,高通量测序技术发展迅速,测序成本显著降低,为SSR分子标记开发提供了一种全新的方法。转录组测序(RNA-Seq)可以全面快速地获得某一特定组织或器官在特定状态下几乎所有的转录组信息,也可以根据测序结果开发特异EST-SSR分子标记[3]。目前,RNA-Seq技术已在刺梨(Rosa roxbunghii)[4]、鱼腥草(Houttuynia cordata)[5]、杜仲(Eucommia ulmoides)[6]等多种植物上开发出EST-SSR分子标记,并应用于多领域遗传分析。
  银杏(Ginkgo biloba L.)为银杏科银杏属落叶乔木,雌雄异株,有“金色活化石”之称,具有良好的观赏特性与药用价值[7]。银杏种子含有银杏酸等多种生理药理活性物质[8],但银杏种子成熟后外种皮有恶臭[9],易污染环境,故在园林绿化上宜使用雄株。银杏采果园的建设与园林绿化中的资源配置都要求将雌雄株区分开来,然而银杏实生苗在定植后需15~20年才开花,继而才能肉眼分辨出雌雄,这显然不能满足早期定植时对雌雄性别区分的要求。形态特征鉴别法简单易行,但仍处于定性阶段,缺乏准确的定量标准;同工酶法及染色体核型分析法均可靠,但难以应用于大规模实践;分子标记法及特异蛋白方面的研究更为准确,但需更高的科技支撑[10]。因此,开发快捷、有效和可靠的银杏雌雄株早期性别鉴定方法,对银杏的资源配置及实际应用具有重要意义。利用雌雄特异的EST-SSR标记位点,已经成功地开发出一种早期鉴别杜仲性别的方法[11]。寻找在银杏雌雄株中存在的与性别相关联的特异EST-SSR标记位点,或许可以成为快速准确地鉴别银杏性别的方法,为制定科学合理的配置应用方案提供有力的技术支持。
  本研究通过RNA-Seq技术对银杏大、小孢子叶球进行转录组测序,对测序数据进行拼接组装后获得unigenes,再对unigenes中包含的EST-SSR位点进行分析,明确银杏转录组EST-SSR位点的组成和分布特征,为后续银杏遗传分析及早期性别鉴定方法的建立等研究提供理论支持。
  1 材料与方法
  1.1 银杏来源与总RNA提取
  银杏采自山东农业大学林学院银杏种质资源圃,选取来自于同一家系的银杏25年生雌雄实生苗各5株,于2015年3月取初开的银杏大孢子叶球(雌花)和小孢子叶球(雄花)各10个作为试验材料。每棵树采集2个样本,每5个样本作为1个生物学重复,共设置2个生物学重复。所采样品用液氮速冻后保存于-80 ℃冰箱备用。使用改良的CTAB法[12]抽取银杏总RNA,利用Nanodrop 2000和琼脂糖凝胶电泳检测总RNA质量和完整性。当总RNA的浓度大于400 ng/μL、28S/18S>1.8时,表明所提取的RNA符合转录组测序的要求。
  1.2 转录组测序及序列拼接组装
  利用NEB Next UltraTM RNA Library Prep Kit for Illumina(NEB,USA)構建cDNA文库,然后利用Illumina Hiseq 2500测序平台对构建的cDNA文库进行双末端测序。对测序得到的原始序列进行去接头、去低质量读段和去重复等处理后,使用软件Trinity[13]进行de novo组装,最终得到尽可能长的unigenes。
  1.3 银杏转录组EST-SSR位点挖掘
  利用MISA软件[14]对银杏转录组unigenes序列进行EST-SSR位点搜索,搜索标准如表1所示。   1.4 银杏转录组EST-SSR位点引物设计
  利用Primer 3.0进行银杏转录组EST-SSR位点引物设计,软件参数设置采用默认值,针对检索到的每一个EST-SSR位点同时设计3对特异引物供后期试验选择。
  2 结果与分析
  2.1 总RNA质量检测结果
  经Nanodrop 2000和琼脂糖凝胶电泳检测后发现,总RNA浓度为845.7 ng/μL,28S/18S为2.01,表明本研究提取的银杏总RNA样品质量高,能够满足后续转录组测序的要求。
  2.2 原始序列组装结果
  银杏转录组测序原始数据经组装拼接后共得到108 307条unigenes,这些unigenes的总长度为 86 212 372 bp,平均长度为796 bp。序列长度大于1 000 bp的unigenes有23 624条,占全部unigenes的21.81%(图1)。
  2.3 银杏EST-SSR位点数量分布特征
  如表2所示,银杏转录组unigenes序列经检索后,共发现8 178条unigenes含有9 668个EST-SSR位点,占总unigenes数量的7.55%。从银杏转录组unigenes中共检索到6种核苷酸重复类型,出现数量最多的是单核苷酸重复,占总EST-SSR位点数量的58.57%,其次是二核苷酸重复,占 25.55%,数量最少的是五核苷酸重复,仅占0.14%。
  2.4 银杏EST-SSR重复基元的分布特征
  如图2所示,在9 668个银杏EST-SSR位点中,共有147种重复基元出现, 其中单核苷酸、二核苷酸、三核苷酸、四核苷酸、 五核苷酸及六核苷酸重復基元的种类分别有4、12、60、44、13、14种。单核苷酸重复基元中,A和T是优势重复基元类型,分别有2 808、2 685个,占单核苷酸重复的97.00%;二核苷酸重复基元中,出现次数最多的是AT,有469个,占二核苷酸重复的18.98%,其次是TA,有383个,占15.50%;三核苷酸重复基元中,出现频率最高的为GAA,占三核苷酸重复的4.79%;四核苷酸、五核苷酸和六核苷酸重复基元类型数量最少,占总EST-SSR位点数量的1.01%。
  2.5 银杏转录组EST-SSR位点引物设计
  如表3所示,采用Primer 3.0软件对本研究检索到的银杏EST-SSR位点进行特异引物设计,共得到6 809对特异引物,成功率为70.43%。在设计成功的6 809对引物中,扩增产物为单核苷酸重复的最多,有4 012个,占58.92%;其次为二核苷酸和三核苷酸重复基元,分别有2 413、1 095个,分别占35.44%、16.08%。另外,PCR产物为复合型重复(含有1个以上重复基元类型)的有921个,占13.53%。
  2.6 银杏转录组EST-SSR位点的可用性评价
  多态性是判定分子标记可用性的重要参考指标之一,对于SSR分子标记来说,长度是影响其多态性高低的一个重要因素。研究表明,当SSR长度大于20 bp时,此位点具有高度多态性,当长度在 12~20 bp之间,此位点具有中等水平的多态性,而长度小于12 bp的SSR位点多态性较低[15]。因此本研究中对银杏转录组EST-SSR位点进行搜索时,筛选标准为单核苷酸重复至少10次,二核苷酸重复至少6次,而三核苷酸至六核苷酸的重复次数要大于5次。经统计,银杏转录组EST-SSR位点的长度集中分布在12~45 bp之间,其中长度大于20 bp的EST-SSR位点共有734个,占总EST-SSR位点的7.59%;长度在12~20 bp之间的 EST-SSR位点有4 944个,占总数的51.14%。Zhang等研究发现,高级重复基元类型SSR位点的多态性要低于低级重复基元类型[16]。在本研究中检索到的银杏转录组EST-SSR位点主要是低级重复基元类型SSR位点,如单核苷酸、二核苷酸、三核苷酸重复所占比例高达84.28%,对银杏转录组EST-SSR位点长度进行统计分析时发现,长度大于20 bp的734个EST-SSR位点中,单核苷酸、二核苷酸重复基元类型有471个, 占比达到64.17%,表明这部分银杏转录组EST-SSR位点具有高度多态性潜能,有很好的利用潜质。
  3 讨论与结论
  SSR位点广泛分布于真核生物基因组中,据统计,真核生物基因组中每隔10~50 kb就存在1个SSR位点,在植物基因组中,平均每23.3 kb就有1个SSR位点[17]。目前,转录组学研究涉及的物种越来越广泛,尤其是基因组序列还未公布的物种,产生了大量的转录组测序数据,对于这些数据的深度挖掘成为目前研究的热点。本研究通过RNA-Seq技术对银杏大、小孢子叶球进行了转录组测序,经过拼接组装后得到108 307条unigenes,检索后得到符合条件的EST-SSR位点9 668个,出现频率为8.92%,其出现频率明显高于鱼腥草[5]、云南松[18]等物种,低于刺梨[4]等物种。造成不同物种间 EST-SSR位点出现频率差异的原因可能是物种间SSR位点组成及分布的差异性。银杏转录组中 EST-SSR位点种类与数量均比较丰富,可为银杏SSR分子标记的开发提供重要的参考。
   不同物种之间EST-SSR位点主要重复类型同样有所差异。很多植物的EST-SSR位点主要以二核苷酸、三核苷酸重复基元类型为主,比如云南松[18]。本研究发现,银杏转录组EST-SSR位点重复基元类型主要以单核苷酸重复为主,占全部SSR位点的58.57%,其次是二核苷酸重复,这与红松[19]、白皮松[20]等相似,但与云南松[18]、鱼腥草[5]、刺梨[4]等物种有差异,这些物种EST-SSR位点的主要重复基元是三核苷酸重复。SSR位点基序类型中普遍存在A/T优势,而G/C重复基序类型出现频率较低,在多数植物中很难发现。导致上述现象的可能原因是打破A/T碱基对之间氢键所需的能量要低于G/C碱基对,基因组中A/T的波动较G/C容易[21]。但也有观点认为,基因组甲基化使C转化为T,同时3′末端polyA序列插入形成富含A的原始SSR位点,导致重复基序中A/T优势的出现[22]。本研究发现,银杏转录组EST-SSR位点重复基序类型中单核苷酸重复基元类型出现最多的是A与T,两者构成的SSR位点占总SSR位点数量的56.82%。其次,二核苷酸重复基元类型中,AT和TA重复基序类型出现次数同样很高,所占SSR位点比例分别为4.85%、3.96%,表现出较明显的A/T优势。而G/C在所有重复基元类型中的出现频率较低,由C和G组成的单核苷酸重复基元共19个,占总SSR位点的0.16%,二核苷酸重复中GC和CG所占的比例仅分别为0.01%、0.003 7%。银杏转录组EST-SSR位点不仅出现频率高、平均分布频率广,且类型丰富,具有较高的多态性潜能和可用性。本研究积累了大量银杏EST-SSR位点并明确了其基本特征,可为开发银杏SSR分子标记奠定重要的理论基础。本研究的开展对于加快银杏功能基因资源的开发利用,建立银杏种质资源评价和改良机制、快速准确的苗期性别鉴定方法等具有重要的意义。   参考文献:
  [1]赵 罕,朱高浦,刘梦培,等. 微卫星分子标记及其在林业中的应用[J]. 世界林业研究,2013,26(6):21-26.
  [2]程小毛,黄晓霞. SSR标记开发及其在植物中的应用[J]. 中国农学通报,2011,27(5):304-307.
  [3]Sharma R,Maloo S R,Choudhary S,et al. Microsatellite markers:an important DNA fingerprinting tool for characterization of crop plants[J]. The Journal of Plant Science Research,2015,31(1):83.
  [4]鄢秀芹,魯 敏,安华明. 刺梨转录组SSR信息分析及其分子标记开发[J]. 园艺学报,2015,42(2):341-349.
  [5]黎晓英,刘胜贵,王 丹,等. 鱼腥草转录组SSR位点信息分析及其多态性研究[J]. 中草药,2016,47(10):1762-1767.
  [6]黄海燕,杜红岩,乌云塔娜,等. 基于杜仲转录组序列的SSR分子标记的开发[J]. 林业科学,2013,49(5):176-181.
  [7]朱丽峰. 银杏的景观价值及其在园林中的应用[J]. 林业调查规划,2012,37(1):112-114.
  [8]耿敏章. 银杏中营养成分和功能因子的研究进展[J]. 氨基酸和生物资源,2011,33(1):63-66,83.
  [9]曹福亮,沈国航. 中国银杏志[M]. 北京:中国林业出版社,2007.
  [10]黄 茜,刘霁瑶,曹 敏,等. 银杏性别特征表现与鉴别研究进展[J]. 果树学报,2013,30(6):1065-1071.
  [11]林开勤,赵德刚,李 岩,等. 杜仲性别相关EST-SSR标记的开发[J]. 林业科学,2016,52(10):146-152.
  [12]许端祥,杜文丽,陈中钐,等. 基于瓠瓜转录组测序的EST-SSR标记的开发及其应用[J/OL]. 热带作物学报:1-16[2019-12-19]. http://kns.cnki.net/kcms/detail/46.1019.S.20190912.1409.008.html.
  [13]Grabherr M G,Haas B J,Yassour M,et al.Trinity:reconstructing a full-length transcriptome without a genome from RNA-Seq data[J]. Nature Biotechnology,2013,29(7):644-652.
  [14]Faircloth B C.MSATCOMMANDER:detection of microsatellite repeat arrays and automated,locus-specific primer design[J]. Molecular Ecology Resourecs,2008,8(1):92-94.
  [15]Temnykh S,Park W D,Ayres N,et al. Mapping and genome organization of microsatellite sequences in rice(Oryza sativa L. )[J]. Theoretical and Applied Genetics,2000,100(5):697-712.
  [16]Zhang P Z,Dreisigacker S,Melchinger A E,et al. Quantifying novel sequence variation and selective advantage in synthetic hexaploid wheats and their backcross-derived lines using SSR markers[J]. Molecular Breeding,2005,15(1):1-10.
  [17]Marathi B,Guleria S,Singh N K,et al. Molecular diversity and segregation distortion measured by SSR markers in a new plant type based recombinant inbred line population of rice[J]. Indian Journal of Genetics and Plant Breeding,2011,71(4):297-303.
  [18]蔡年辉,许玉兰,徐 杨,等. 云南松转录组SSR的分布及其序列特征[J]. 云南大学学报(自然科学版),2015,37(5):770-778.
  [19]张 振,张含国,莫 迟,等. 红松转录组SSR分析及EST-SSR标记开发[J]. 林业科学2015,51(8):114-120.
  [20]李昕蔓,金卓颖,苏安然,等. 白皮松EST-SSR序列分布特征及引物开发[J]. 林业与生态科学,2019,34(3):266-272.
  [21]Biswas M K,Chai L J,Mayer C,et al. Exploiting BAC-end sequences for the mining,characterization and utility of new short sequences repeat (SSR) markers in Citrus[J]. Molecular Biology Reports,2012,39(5):5373-5386.
  [22]Li D J,Deng Z,Qin B,et al. De novo assembly and characterization of bark transcriptome using Illumina sequencing and development of EST-SSR markers in rubber tree (Hevea brasiliensis Muell.Arg.)[J]. BMC Genomics,2012,13(1):192.
转载注明来源:https://www.xzbu.com/1/view-15154073.htm