zhenchengfang / PPR-Meta

A tool for identifying phages and plasmids from metagenomic fragments using deep learning
GNU Lesser General Public License v3.0
39 stars 9 forks source link

PPR-Meta如何保证长contigs预测的准确性 #10

Open ZongzhiWu opened 3 years ago

ZongzhiWu commented 3 years ago

作者你好,PPR-Meta在处理训练集时,将contigs根据长度分为了不同的group(A:100-400 bp B:400-800 bp C:800-1200 bp D:5-10 kbp)。 请问如果一个序列长度为401,在处理这条序列时,是将第401个序列删去,还是将401-800位用零补全呢?GroupL的序列预处理好像使用的是kmer? 如果将PPR-Meta应用于宏基因组预测时,一条序列的长度为4 kbp(不属于group A-D),PPR-Meta是如何处理的呢? 谢谢~

zhenchengfang commented 3 years ago

你好,不好意思回复较晚。在PPR-Meta中,遇到401的情况是直接将他补零。另外,对于长度大于1200 bp的序列,PPR-Meta的做法是把他砍成多段不长于1200 bp的子序列,然后分别预测算平均分。PPR-Meta没有用kmer,代码中关于kmer部分是PPR-Meta的原始版本,实际运行中不会进入这部分代码(由于所有序列被砍成小于1200bp的序列,所以不会存在范围在GroupL的序列)。关于长序列的预测,PPR-Meta的文章的Structure of deep learning neural networks章节的最后一段有详细描述。

Wendy361 commented 1 year ago

那PPR-Meta也可以用来预测组装好的nanopore的长序列?

Wendy361 commented 1 year ago

比如contig的长度是7Mb