PVsiRNAPred-LSTM:基于长短时记忆神经网络预测植物病毒衍生的小干扰RNA
来源:用户上传
作者:李博文 贺碧芳
摘 要:植物病毒衍生的小干扰RNA(Virus-derived siRNAs,vsiRNAs)能够调节多种生物学过程,在抗病毒免疫中发挥着非常重要的作用。因此,植物vsiRNAs的识别有助于了解其生物发生机制,对研究抗病毒植物具有重要意义。虽然,现在已有多种实验方法通过检测RNA来寻找vsiRNAs,但是实验测试费时费力费钱。在本文中,我们从PVsiRNAdb数据库中提取植物vsiRNAs序列,基于长短时记忆神经网络(Long Short-Term Memory neural network,LSTM)与vsiRNAs序列,开发了一种深度学习算法――PVsiRNAPred-LSTM,用于预测植物vsiRNAs。PVsiRNAPred-LSTM可以自动学习并选择与预测任务相关的重要特征。为了防止模型过拟合,我们使用了五折交叉检验来训练模型。在五折交叉检验测试中,该模型的准确率为64.38%,灵敏度(Sn)为66.44%,精确度(Pr)为60.51%,F1值为0.64,特异性(Sp)为56.63%,马修斯相关系数(MCC)为0.23,AUCROC为0.67。以上结果表明PVsiRNAPred-LSTM取得了良好的预测效果,我们希望通过PVsiRNAPred-LSTM这一生物信息学算法来预测植物vsiRNAs,帮助找到新的植物vsiRNAs。
关键词:植物病毒衍生的小干扰RNA(vsiRNAs);长短时记忆神经网络(LSTM);深度学习;五折交叉检验;生物信息学算法;vsiRNA预测
非编码RNA(Non-coding RNA,ncRNA)是转录自基因组的不编码蛋白质的RNA分子。除了在转录和转录后水平上发挥作用以外,ncRNA在基因表达的表观遗传学调控中也有着非常重要的作用。小干扰RNA(Small interfering RNA,siRNA)、microRNA(miRNA)、Piwi相互作用RNA(piRNA)是三种主要的调控型ncRNA,负责调控基因表达和宿主抗微生物免疫[1]。
siRNA是长度为20到30个核苷酸的双股RNA(dsRNA),在生物学上有多种用途。植物vsiRNAs(Virus-derived siRNAs)来源于RNA病毒的双链复制过程中的dsRNA分子。植物vsiRNAs可参与调控植物的生长、发育和抗病毒免疫等多种生物过程[2]。在受病毒感染的植物体内,vsiRNAs可以作为RNA干扰(RNA interference,RNAi)靶向入侵病毒的向导,以达到对病毒扩增的抑制效果[2-3]。除此之外,vsiRNAs还可以下调宿主基因转录,达到对宿主基因表达抑制的作用[4-5]。近年来大量研究项目表明,vsiRNAs在保护宿主植物免受病毒感染方面具有广泛应用。例如,2020年陈玲等人发表了vsiRNAs在果树病毒研究中的应用,为果树病毒研究防控提供了新思路[6]。因此,植物vsiRNAs的识别有非常重要的意义,能帮助我们进一步了解vsiRNAs的发生机制,为进一步研究抗病毒植物做出贡献。
为了存储与集中管理vsiRNAs,研究者们开发了很多的vsiRNAs数据库。例如,2019年Kumar等人开发了PVsiRNAdb数据库[7]。此外,其他课题组也构建了存储siRNAs和vsiRNAs的数据库,如siRNAdb[8]、VIRsiRNAdb[9]和HIVsirDB[10]。基于vsiRNAs数据库的数据,研究者们也开发了许多生物信息学算法来预测vsiRNAs。尽管现阶段植物vsiRNAs数据非常丰富,但是用于预测植物vsiRNAs的工具却不多。此外,虽然实验方法能够准确地识别入侵植物的RNAs序列,识别新的vsiRNAs。然而与计算方法相比,实验方法检测vsiRNAs投入的时间和人力物力及费用成本都很高,往往付出与回报不成正比,所以现在需要一种可开发性高的计算方法来预测vsiRNAs。
针对上述问题,我们提出了基于植物vsiRNAs序列组成的PVsiRNAPred-LSTM深度学习模型,用于预测植物vsiRNAs。PVsiRNAPred-LSTM模型的关键部分是LSTM模块,它可以自动学习植物vsiRNAs相关的RNA序列层次表示,降低试验成本,作为为数不多的生物信息学算法为发现新的vsiRNAs和抗病毒植物的研究提供帮助。
1 数据与预处理
1.1 数据来源
本文使用的植物vsiRNAs数据集来自2019年Kumar等人发布的PVsiRNAdb数据库[7],构造非植物vsiRNAs数据集的方法跟本课题组2019年发表的文章[11]所用方法一致,这里就不再赘述。最终训练数据集共包括12570条植物vsiRNAs序列和12570条非植物vsiRNAs序列,如图1所示。此外,我采用双样本t检验对阳性数据集和阴性数据集的长度进行分析,两个数据集的长度分布无统计性差异(p>005)。两个数据集的长度分布为17~30个核苷酸残基。
1.2 数据预处理
本数据集内序列长度不一致,长度最短为17个核苷酸残基,最长为30个核苷酸残基。所以,首先将数据转换成相同长度的序列,不足30个核苷酸残基的序列用“X”补齐,方便后续采用Embedding进行特征编码。
2 分析方法
2.1 特征编码
目前,越来越多的研究者采用深度学习的方法预测DNA、RNA和蛋白质序列,但是这一过程中的输入必须是数值而不能是字符。构建一个实用性强且准确率高的测序模型,除了基准数据集可靠之外,还需要选取合适的特征编码方法,将序列数据不失真地转变为数值进行表征,这对于描述序列数据结构和功能属性的内在关联是非常重要的。在本研究当中,我们使用Embedding来进行特征编码,将每条序列转换为一个5×30的二维向量。
nlc202206291442
转载注明来源:https://www.xzbu.com/1/view-15434926.htm