PVsiRNAPred-LSTM：基于长短时记忆神经网络预测植物病毒衍生的小干扰RNA

> 中国论文网 >
政治论文 >
PVsiRNAPred-LSTM：基于长短时记忆神经网络预测植物病毒衍生的小干扰RNA

PVsiRNAPred-LSTM：基于长短时记忆神经网络预测植物病毒衍生的小干扰RNA

来源:用户上传作者:李博文贺碧芳

　　摘要：植物病毒衍生的小干扰RNA（Virus-derived siRNAs，vsiRNAs）能够调节多种生物学过程，在抗病毒免疫中发挥着非常重要的作用。因此，植物vsiRNAs的识别有助于了解其生物发生机制，对研究抗病毒植物具有重要意义。虽然，现在已有多种实验方法通过检测RNA来寻找vsiRNAs，但是实验测试费时费力费钱。在本文中，我们从PVsiRNAdb数据库中提取植物vsiRNAs序列，基于长短时记忆神经网络（Long Short-Term Memory neural network，LSTM）与vsiRNAs序列，开发了一种深度学习算法――PVsiRNAPred-LSTM，用于预测植物vsiRNAs。PVsiRNAPred-LSTM可以自动学习并选择与预测任务相关的重要特征。为了防止模型过拟合，我们使用了五折交叉检验来训练模型。在五折交叉检验测试中，该模型的准确率为64.38%，灵敏度（Sn）为66.44%，精确度（Pr）为60.51%，F1值为0.64，特异性（Sp）为56.63%，马修斯相关系数（MCC）为0.23，AUCROC为0.67。以上结果表明PVsiRNAPred-LSTM取得了良好的预测效果，我们希望通过PVsiRNAPred-LSTM这一生物信息学算法来预测植物vsiRNAs，帮助找到新的植物vsiRNAs。
　　关键词：植物病毒衍生的小干扰RNA（vsiRNAs）;长短时记忆神经网络（LSTM）;深度学习;五折交叉检验;生物信息学算法;vsiRNA预测
　　非编码RNA（Non-coding RNA，ncRNA）是转录自基因组的不编码蛋白质的RNA分子。除了在转录和转录后水平上发挥作用以外，ncRNA在基因表达的表观遗传学调控中也有着非常重要的作用。小干扰RNA（Small interfering RNA，siRNA）、microRNA（miRNA）、Piwi相互作用RNA（piRNA）是三种主要的调控型ncRNA，负责调控基因表达和宿主抗微生物免疫[1]。
　　siRNA是长度为20到30个核苷酸的双股RNA（dsRNA），在生物学上有多种用途。植物vsiRNAs（Virus-derived siRNAs）来源于RNA病毒的双链复制过程中的dsRNA分子。植物vsiRNAs可参与调控植物的生长、发育和抗病毒免疫等多种生物过程[2]。在受病毒感染的植物体内，vsiRNAs可以作为RNA干扰（RNA interference，RNAi）靶向入侵病毒的向导，以达到对病毒扩增的抑制效果[2-3]。除此之外，vsiRNAs还可以下调宿主基因转录，达到对宿主基因表达抑制的作用[4-5]。近年来大量研究项目表明，vsiRNAs在保护宿主植物免受病毒感染方面具有广泛应用。例如，2020年陈玲等人发表了vsiRNAs在果树病毒研究中的应用，为果树病毒研究防控提供了新思路[6]。因此，植物vsiRNAs的识别有非常重要的意义，能帮助我们进一步了解vsiRNAs的发生机制，为进一步研究抗病毒植物做出贡献。
　　为了存储与集中管理vsiRNAs，研究者们开发了很多的vsiRNAs数据库。例如，2019年Kumar等人开发了PVsiRNAdb数据库[7]。此外，其他课题组也构建了存储siRNAs和vsiRNAs的数据库，如siRNAdb[8]、VIRsiRNAdb[9]和HIVsirDB[10]。基于vsiRNAs数据库的数据，研究者们也开发了许多生物信息学算法来预测vsiRNAs。尽管现阶段植物vsiRNAs数据非常丰富，但是用于预测植物vsiRNAs的工具却不多。此外，虽然实验方法能够准确地识别入侵植物的RNAs序列，识别新的vsiRNAs。然而与计算方法相比，实验方法检测vsiRNAs投入的时间和人力物力及费用成本都很高，往往付出与回报不成正比，所以现在需要一种可开发性高的计算方法来预测vsiRNAs。
　　针对上述问题，我们提出了基于植物vsiRNAs序列组成的PVsiRNAPred-LSTM深度学习模型，用于预测植物vsiRNAs。PVsiRNAPred-LSTM模型的关键部分是LSTM模块，它可以自动学习植物vsiRNAs相关的RNA序列层次表示，降低试验成本，作为为数不多的生物信息学算法为发现新的vsiRNAs和抗病毒植物的研究提供帮助。
　　1 数据与预处理
　　1.1 数据来源
　　本文使用的植物vsiRNAs数据集来自2019年Kumar等人发布的PVsiRNAdb数据库[7]，构造非植物vsiRNAs数据集的方法跟本课题组2019年发表的文章[11]所用方法一致，这里就不再赘述。最终训练数据集共包括12570条植物vsiRNAs序列和12570条非植物vsiRNAs序列，如图1所示。此外，我采用双样本t检验对阳性数据集和阴性数据集的长度进行分析，两个数据集的长度分布无统计性差异（p>005）。两个数据集的长度分布为17～30个核苷酸残基。
　　1.2 数据预处理
　　本数据集内序列长度不一致，长度最短为17个核苷酸残基，最长为30个核苷酸残基。所以，首先将数据转换成相同长度的序列，不足30个核苷酸残基的序列用“X”补齐，方便后续采用Embedding进行特征编码。
　　2 分析方法
　　2.1 特征编码
　　目前，越来越多的研究者采用深度学习的方法预测DNA、RNA和蛋白质序列，但是这一过程中的输入必须是数值而不能是字符。构建一个实用性强且准确率高的测序模型，除了基准数据集可靠之外，还需要选取合适的特征编码方法，将序列数据不失真地转变为数值进行表征，这对于描述序列数据结构和功能属性的内在关联是非常重要的。在本研究当中，我们使用Embedding来进行特征编码，将每条序列转换为一个5×30的二维向量。

nlc202206291442

转载注明来源:https://www.xzbu.com/1/view-15434926.htm

查看更多→

PVsiRNAPred-LSTM：基于长短时记忆神经网络预测植物病毒衍生的小干扰RNA

相关文章