panlab-bioinfo / RAfilter

A filter algorithm with program to filter an alignment or mapping file
MIT License
10 stars 0 forks source link

denovo组装中是否可用 #2

Open btrainee opened 1 year ago

btrainee commented 1 year ago

您好, 按照我的理解,这个软件依赖于高质量的参考基因组吧? 如果参考基因组本身重复序列区域组装质量不高,或者实际序列与组装的个体有偏差,是否会过滤掉假阳性的序列,而保留了真正异常的序列? 对于完全没有参考基因组的从头组装中如何使用呢?

期待您的回复

祝好!

ruoyu1123 commented 1 year ago

您好, 如果参考基因组有错误,有错误的部分的大多数比对会被过滤掉,举个例子,假如有一段区域形成了chimeric的序列,在拼接部分的比对应该会被过滤掉,不过如果有这样的区域形成,说明reads中有支持这样片段的reads,这部分reads不能被过滤掉。 不过这个工具设计的初衷主要是用于HiFi的denovo组装的,该工具对reads以及参考序列的准确性十分敏感,用于draft 组装图之后,scaffolding或者gap填补这一步。draft组装图中,产生分歧的contigs,大多数是一些在基因组中多次出现的序列,导致了组装软件无法分辨应该如何正确连接,因此会在图上产生气泡。这些复杂的区域,也不是完全相同的,该软件利用这些区域的特异性,并将其特异性信号放大来起到过滤的作用,过滤后,可以去除draft图中一些错误边,从而提高scaffold的准确性;第二是在gap填补阶段,染色体级别的组装,最终是要填补scaffold的空缺,这些空缺多是核糖体dna或者着丝粒区域,在序列延申的时候由于重复区域的存在,这些gap的两边会产生比对的堆叠。我们去除这些堆叠的比对中大多数的错误,然后就能从重叠群找到正确的reads进行延申,目前的补gap的工具效果都比较一般。rafilter的效果目前只是理论上的,由于现在流程化的支持可能还是不完善,如果要使用的话,限制比较多,只能用于手动分型或者是手动填补gap,不过可以期待一下我们后面的工作,等流程较为完整了,我们会整理成pipline,到时候可能会更加方便一些。 感谢咨询 祝科研顺利!

btrainee commented 1 year ago

谢谢回复,非常期待您的下一步工作。 祝好~