基于重测序的不同生态型油梨的全基因组变异及进化分析
来源:用户上传
作者:葛宇 徐梓宁 马蔚红 刘远征 王步天 刘毅
D: 10.12008/j.issn.1009-2196.2022.11.010
GE YuXU ZiningMA WeihongLIU YuanzhengWANG ButianLIU Yi
(1.College of Tropical Crops, Yunnan Agricultural University, Puer,Yunnan 665099, China; 2.Institute of Science and Technology Information, Chinese Academy of Tropical Agricultural Sciences, Haikou,Hainan 571101, China; 3.Haikou Experimental Station, Chinese Academy of Tropical Agricultural Sciences, Haikou,Hainan 571101, China; 4.Yunnan Natural Rubber Industry Group Jiangcheng Co., LTD., Puer,Yunnan 665909, China)
Four different ecotypes of avocado were performed whole genome sequencing in order to reveal the differences among different ecotypes of avocados. The average sequencing depth was 26×, and the average coverage was 89.39%. Compared with the reference genome, the average heterozygosity rate of four different ecotypes was 64.26%. The West Indian ecotype ‘Donnie’ possessed the lowest heterozygosity (35.34%), and the remaining three varieties all had heterozygosity (over 70%). The total number of single nucleotide polymorphic site (SNP) ranged from 3 854 384 to 6 290 629, and the total number of insertions and deletions (Small InDel) ranged from 1 432406 to 1 707608. These mutations conferred 13 864 to 18 143 variable genes. KEGG analysis demonstrated that there were the most mutated genes in the metabolic pathways of starch and sucrose in four different ecotypes of avocado. Cluster analysis displayed that the pure Guatemalan and Mexican ecotypes were more closely related to each other than to the West Indian ecotype. These results reflected the genomic differences of different ecotypes of avocado, and provided scientific basis for marker-assisted selection breeding.
nlc202302021721
avocado; ecotype; whole genome re-sequencing; single nucleotide polymorphism; genetic relationship
油梨(americana Mill.)是世界上重要的亚热带/热带经济作物之一,其原产于中美洲和墨西哥。油梨z传多样性丰富,迥异的生长环境最终演化出了不同的油梨生态型。园艺学家广泛认为,油梨有3种生态型,墨西哥生态型(var. )、危地马拉生态型(var. )和西印度群岛生态型(var. )。这3种生态型无论在形态、园艺性状还是生理性状上均可以区分开。墨西哥生态型被广泛认为起源于墨西哥中部,适应相对寒冷的气候,而危地马拉生态型被认为主要分布在危地马拉山脉的中高海拔地区,同样也具有一定的耐寒性。西印度群岛生态型起源于南美洲中部和北部,直到哥伦布时代后才被引入西印度群岛,其生长环境为温暖和潮湿的热带低地。由于油梨雌雄花开花时间错开,无法自交结实,只能通过自然杂交方式繁殖后代,并且3种生态型之间不存在生殖隔离,因此,世界上大多数广泛种植的油梨栽培品种都是杂交种。
前人对油梨3种生态型的进化关系研究并未理清其遗传关系,有些结果还存在互相矛盾。有些研究人员采用形态性状和不同分子标记将危地马拉和西印度生态型聚在一起。然而,另一些研究人员利用同工酶和分子标记可以区分这两种生态型。Ashworth等认为,与墨西哥生态型相比,危地马拉与西印度群岛生态型的亲缘关系更密切,而Gross-German等研究认为,危地马拉和墨西哥生态型之间的亲缘关系更密切。课题组前期通过特异长度扩增片段测序(SLAF-Seq)简化基因组及二代转录组对3种油梨纯生态型及两种油梨杂交生态型品种分别测序,试验结果表明,相对于西印度群岛生态型,危地马拉和墨西哥生态型之间的亲缘关系更紧密。进一步,课题组对3种油梨纯生态型的6份品种叶绿体基因组测序并进行进化分析。结果表明,墨西哥生态型最先从鳄梨种中分化出来,然后是危地马拉生态型,最后,也是最新分化出的,是西印度群岛生态型。
随着越来越多具有高经济价值的作物的基因组被测序公布,人们采用全基因组重测序技术可在全基因组范围内筛选到大量的单核苷酸多态性位点(single nucleotidepolymorphisms, SNP)与插入缺失位点(insertion/deletion, InDel),这些结构变异可能是导致作物遗传进化变异的主要决定因素,对作物进化分析及分子辅助育种研究具有重要的作用。本研究首次对3种油梨纯生态型和1种油梨杂交种共4个油梨品种进行全基因组重测序,对其SNP和Small Indel进行深度挖掘,全面揭示不同油梨生态型在基因组水平上的变异基因,并进一步确认不同油梨生态型之间的进化关系。本试验结果将为后续的油梨育种研究提供参考。 1 材料与方法
材料
供试材料Choquette为危地马拉与西印度群岛生态型油梨杂交品种,Donnie为西印度群岛生态型油梨品种,Walter Hole墨西哥型生态型油梨品种,上述3份品种选育地均在美国;Nabal为危地马拉型生态型油梨品种,选育地在危地马拉(表1)。
方法
基因组提取及重测序采集4份油梨品种幼嫩叶片,采用CTAB法进行DNA提取,3株混样进行全基因组重测序。样品基因组DNA检测合格后,用超声波法将DNA片段化,进而对处理后的DNA进行纯化、末端修复、3′端加A、连接测序接头。而后采用琼脂糖凝胶电泳选择片段大小,进而采用PCR形成测序文库,构建完毕的文库首先开展文库质检,合格后采用Illumina开展测序。
基因组变异检测与注释首先采用bwa软件将Clean reads与参考基因组序列(https://genomevolution.org/coge//GenomeInfo.pl?gid=29302)进行比对。其次,基于Clean Reads在油梨参考基因组的定位结果,使用Picard软件(http://sourceforge.net/projects/picard/)过滤冗余的reads,保证检测结果准确。而后采用GATK软件开展SNP与Indel 检测,采用SnpEff软件对SNP与Indel进行注释。
数据分析 采用NTSYS 2.1对数据进行聚类分析。
nlc202302021721
2 结果与分析
四份不同生态型油梨基因组重测序分析
利用Illumina 高通量技术分别对西印度群岛生态型油梨品种Donnie、墨西哥型生态型油梨品种Walter Hole、危地马拉型生态型油梨品种Nabal与危地马拉型与西印度群岛生态型油梨杂交品种Choquette进行全基因组重测序,得到原始测序数据,然后过滤获得114.86 Gb的Clean Data,平均Q30达到93.07%。4份样品与参考基因组危地马拉与墨西哥型生态型油梨杂交品种Hass平均比对率为97.85%,平均覆盖深度为26×,平均基因组覆盖度为89.39%(表2)。
四份不同生态型油梨位点检测与注释
对4份不同生态型油梨进行SNP检测,SNP数量3 854 384~6 290 629个,其中在转换和颠换中,最高的SNP数量均来自于危地马拉与西印度群岛生态型油梨杂交品种Choquette,最少的SNP数量均来自于危地马拉型生态型油梨品种Nabal(表3)。4份不同生态型油梨杂合型SNP数量2071 788~4 403 582个,杂合率35.34%~77.09%。除了西印度群岛生态型油梨品种Donnie的杂合率最低,为35.34%,剩下3份油梨品种的杂合率均超过70%。对4份不同生态型油梨进行SNP注释,发生在编码区内的SNP位点数量51 565~126 799,其中同义突变39652~61 541,占比48.29%~48.61%,非同义突变40 940~63 790,占比50.19%~50.49%(表4)。危地马拉与西印度群岛生态型油梨杂交品种Choquette在除了终止密码子获得与终止密码子丢失这两种统计指标之外的其它14种统计指标中,SNP数量均为最高,而西印度群岛生态型油梨品种Donnie在终止密码子获得类型中,SNP数量最高,墨西哥型生态型油梨品种Walter Hole在终止密码子丢失类型中,SNP数量最高。
四份不同生态型油梨检测与注释
对4份不同生态型油梨进行Small InDel检测发现,全基因组范围的Small Indel总数为1432 406~1 707 608个,编码区Small Indel总数12148~14027个,编码区插入突变为10211~ 11113个,编码区缺失突变为1 937~2 914个,在这4种统计指标中,最高的Small Indel数量均来自于危地马拉型西印度群岛生态型油梨杂交品种Choquette,最少的Small Indel数量均来自于危地马拉型生态型油梨品种Nabal(表5)。4份不同生态型油梨编码区杂合型Small Indel数量为3353~7 704个,杂合率24.71%~59.76%。除了西印度群岛生态型油梨品种Donnie的编码区杂合型Small Indel杂合率最低,为24.71%,剩下3份油梨品种的Small Indel杂合率均超过47%。采用SnpEff软件对4份不同生态型油梨全基因组Small Indel进行注释(表6),危地马拉与西印
度群岛生态型油梨杂交品种Choquette在除了剪切供体突变(外显子前2BP内)、非密码子边界上的3的整数倍的删除与终止密码子获得这3种统计指标之外的其它15种统计指标中,Small Indel数量均为最高,而墨西哥型生态型油梨品种Walter Hole在其它3种统计指标中Small Indel数量均为最高。根据4份不同生态型油梨在编码区和全基因组范围的Small Indel长度进行统计(图1),在编码区域存在较多的+1、C1、+3、C3类型突变,全基因组范围+1、C1、+2、C2类型突变相对占比较多。
四份不同生态型油梨水平变异基因分析
通过寻找参考基因组与4份不同生态型油梨间发生非同义突变SNP、编码区发生Small InDel的基因,寻找4份不同生态型油梨与参考基因组危地马拉与墨西哥型生态型油梨杂交品种Hass之间可能存在功能差异的基因。与参考基因组危地马拉与墨西哥型生态型油梨杂交品种Hass相比,危地马拉与西印度群岛生态型油梨杂交品种Choquette发生非同义突变基因数量为18 143个。发生Small InDel的基因数量为7 958个。GO分析表明,生物过程中的代谢过程(4 325个基因)、细胞组件中的细胞组分(2 071个基因)和分子功能中的催化活性(3580个基因)存在最多的变异基因(图2-A)。KEGG分析表明,淀粉和蔗糖的代谢(144个基因)与植物激素信号转导(144个基因)存在最多的变异基因(图2-B)。与参考基因组危地马拉与墨西哥型生态型油梨杂交品种Hass相比,西印度群岛生态型油梨品种Donnie发生非同义突变基因数量为17 616个,发生Small InDel的基因数量为7 405个。GO分析表明,生物过程中的代谢过程(4 214个基因)、细胞组件中的细胞组分(2001个基因)和分子功能中的催化活性(3 487个基因)存在最多的变异基因(图2-C)。KEGG分析表明,淀粉和蔗糖的代谢(144个基因)存在最多的变异基因(图2-D)。与参考基因组危地马拉与墨西哥型生态型油梨杂交品种Hass相比,墨西哥型生态型油梨品NWalter Hole发生非同义突变基因数量为17 701个,发生Small InDel的基因数量为7 768个。GO分析表明,生物过程中的代谢过程(4 206个基因)、细胞组件中的细胞组分(2 008个基因)和分子功能中的催化活性(3 487个基因)存在最多的变异基因(图2-E)。KEGG分析表明,淀粉和蔗糖的代谢(145个基因)存在最多的变异基因(图2-F)。与参考基因组危地马拉与墨西哥型生态型油梨杂交品种Hass相比,危地马拉型生态型油梨品种Nabal发生非同义突变基因数量为13 864个,发生Small InDel的基因数量为6 935个。GO分析表明,生物过程中的代谢过程(3 477个基因)、细胞组件中的细胞组分(1 669个基因)和分子功能中的催化活性(2 872个基因)存在最多的变异基因(图2-G)。KEGG分析表明,淀粉和蔗糖的代谢(119个基因)存在最多的变异基因(图2-H)。
nlc202302021721
不同生态型油梨聚类分析
基于油梨3份纯生态型及1份危地马拉与西印度群岛生态型品种全基因组重测序数据及作为参考基因组的危地马拉与墨西哥型生态型品种基因组数据,对5份不同生态型油梨进行聚类分析。如图3所示,5份不同生态型油梨品种可划分为2组:其中一组包含墨西哥型生态型油梨品种Walter Hole、危地马拉型生态型油梨品种Nabal
和危地马拉与墨西哥型生态型油梨杂交品种Hass;另外一M包含西印度群岛生态型油梨品种Donnie和危地马拉与西印度群岛生态型油梨杂交品种Choquette。聚类分析表明,相对于西印度群岛生态型,危地马拉和墨西哥生态型油梨品种亲缘关系更近。 3 讨论与结论
本研究选取了油梨3份纯生态型及1份危地马拉与西印度群岛生态型品种进行全基因组重测序,外加参考基因组的危地马拉与墨西哥型生态型品种,均具有一定的代表性,能在一定程度上反映不同生态型油梨在基因组水平的差异。基于通过和参考基因组对比获得的杂合型SNP数量,西印度群岛生态型油梨品种Donnie的杂合率最低,为35.34%(若按照913 MB计算,杂合度为2.27%),剩下墨西哥型生态型油梨品种Walter Hole(若按照1.06 G计算,杂合度为4.66%)、危地马拉型生态型油梨品种Nabal(若按照913MB计算,杂合度为3.26%)与危地马拉与西印度群岛生态型油梨杂交品种Choquette(若按照913MB计算,杂合度为4.82%)的杂合率均超过70%。不同生态型油梨普遍较高的杂合度与油梨属于异花授粉作物这一自身特性有关。此外,本研究表明,相对于西印度群岛生态型,危地马拉和墨西哥生态型油梨品种杂合度更高。基于前期简化基因组测序分析,课题组同样发现,危地马拉和墨西哥生态型油梨品种比西印度群岛生态型油梨品种具有更高的遗传多样性,杂合度也较高。Schnell等也发现,墨西哥和危地马拉生态型油梨品种是高度杂合的,而西印度群岛生态型油梨品种则相对于更加纯合。基于全基因组重测序,聚类分析表明,相对于西印度群岛生态型,危地马拉和墨西哥生态型油梨品种亲缘关系更近。前期课题组选取21份不同生态型油梨进行SLAF简化基因组重测序,基于来自于简化基因组的701 352个SNP进行聚类分析,相关试验结果与本研究聚类分析结果一致。
本研究对4份不同生态型油梨进行重测序,与参考基因组危地马拉与墨西哥型生态型油梨杂交品种Hass相比,获得3 854 384~6 290 629个SNP和1 432 406~1 707 608个Small Indels,这些突变导致了13 864~18 143个基因的变异。KEGG分析表明,淀粉和蔗糖的代谢通路存在最多的变异基因。这些基因变异可能导致不同生态型油梨碳代谢的变化,最终导致从糖转化成的脂肪酸含量差异。前人研究表明,墨西哥型生态型油梨脂肪酸含量普遍较高,危地马拉型生态型油梨脂肪酸含量其次,西印度群岛生态型油梨脂肪酸含量最低。此外,针对这些突变位点,开发相应标记,挖掘优异基因,可为分子标记辅助育种提供重要的标记资源。进一步揭示不同生态型油梨基因组组成,对油梨育种研究具有重要的指导意义,能够有效提升油梨育种的指向性,推动油梨产业发展。
参考文献
[1]Ge Y,Zang X P, Yang Y, et al. In-depth analysis of potential PaAP2/ERF transcription factor related to fatty acid accumulation in avocado (Mill.) and functional characterization of two PaAP2/ERF genes in transgenic tomato[J].Plant Physiology and Biochemistry,2021, 158(8):308-320.
[2]Galindo-Tovar ME, Ogata-Aguilar N, Arzate-Fernandez AM.Some aspects of avocado (Mill.) diversity and domestication in Mesoamerica[J].GeneticResourcesCrop Evolution, 2008, 55(2):441-450.
[3]Schaffer B, Wolstenholme BN, Whiley AW, The Avocado: Botany, Production and Uses[M]. 2nd ed.Croydon: CPI Group (UK) Ltd, 2012.
[4]Ge Y, Tan L, Wu B, et al.Transcriptome sequencing of different avocado ecotypes: de novo transcriptome assembly, annotation, identification and validation of EST-SSR markers[J].Forests, 2019, 10(4):411.
nlc202302021721
[5]Liu YZ, Ge Y, Zhan RL, et al. Molecular markers and a quality trait evaluation for assessing the genetic diversity of avocado landraces from China[J].Agriculture, 2020, 10(2):102.
[6]Kopp LE.A taxonomic revision of the genus in the western Hemisphere ()[J].Memoirs oftheNew YorkBotanical Garden,1966, 14(8):1-120.
[7]Fiedler J,Bufler G,Bangerth F.Genetic relationships of avocado (Mill.) using RAPD markers[J].Euphytica,1998, 101(1):249-255.
[8]Mhameed S,Sharon D,Kaufman D,et al.Genetic relationships within avocado (Mill.) cultivars and betweenspecies[J].Theoretical and Applied Genetics, 1997, 94(2):279-286.
[9]Goldring A,Zamir D,Degani CDuplicated phosphoglucose isomerase genes in avocado[J].Theoretical and Applied Genetics, 1985, 71(9):491-494.
[10]Furnier GR,Cummings MP,Clegg MT.Evolution of the avocados as revealed by DNA restriction site variation[J].Journal of Heredity, 1990, 81(3):183-188.
[11]Ashworth VETM, Clegg MT.Microsatellite markers in avocado (Mill.). genealogical relationships among cultivated avocado genotypes[J].Journal of Heredity, 2003, 94(5):407-415.
[12]Schnell RJ,Brown JS,Olano CT,et al.Evaluation of avocado germplasm using microsatellite markers[J].Journal of the American Society for Horticultural Science,2003, 128(3):881-889.
[13]Gross-German E, Viruel MA.Molecular characterization of avocado germplasm with a new set of SSR and EST-SSR markers: Genetic diversity, population structure, and identification of race-specific markers in a group of cultivated genotypes[J].Tree GeneticsGenome,2013, 9(10):539-555.
[14]Ge Y, Zhang T, Wu B, et al. Genome-wide assessment of avocado germplasm determined from specific length amplified fragment sequencing and transcriptomes: Population structure, genetic diversity, identification, and application of race-specific markers[J].Genes, 2019, 10(5):215.
nlc202302021721
[15]Ge Y, Dong XS, Wu B, et al. Evolutionary analysis of six chloroplast genomes from three ecological races: insights into sequence divergences and phylogenetic relationships[J].Plos One,2019,14(9):e0221827.
[16]Varshney RK, Saxena RK, Upadhyaya HD, et al. Whole- genome resequencing of 292 pigeonpea accessions identifies genomic regions associated with domestication and agronomic traits[J].Nature Genetics, 2017, 49(7):1082-1088.
[17]Li J, Fan ZX, Sun TL, et al. Comparative genome-wide survey of single nucleotide variation uncovers the genetic diversity and potential biomedical applications among six species[J].International Journal of Molecular Sciences, 2018, 19(1):3123.
[18]Wu DZ, Liang Z, Yan T, et al. Whole-genome resequencing of a worldwide collection of rapeseed accessions reveals the genetic basis of ecotype divergence[J]. Mol Plant, 2019, 12(1):30.
[19]Li H, Durbin R.Fast and accurate short read alignment with Burrows-Wheeler Transform[J].Bioinformatics, 2009, 25(6):1754-1760.
[20]Rendón-Anaya M, Ibarra-Laclette E, Méndez-Bravo A, et al. The avocado genome informs deep angiosperm phylogeny, highlights introgressive hybridization, and reveals pathogen-influenced gene space adaptation[J]. Proceedings of the National Academy of Sciences of the United States of America,2019, 116:17081-17089.
[21]McKenna A, Hanna M, Banks E, et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data[J]. Genome Research, 2010, 20(9): 1297-1303.
[22]Cingolani P, Platts A, Wang LL, et al. A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of strain w1118; iso-2; iso-3[J]. Fly, 2012, 6(2):80-92.
(任编辑 龙娅丽)
nlc202302021721
转载注明来源:https://www.xzbu.com/1/view-15444509.htm