MGI-tech-bioinformatics / DNBelab_C_Series_HT_scRNA-analysis-software

An open source and flexible pipeline to analysis high-throughput DNBelab C Series single-cell RNA datasets
MIT License
52 stars 20 forks source link

Error code: SAW-A10400, get signal: 18 #65

Closed Tc940417 closed 2 months ago

Tc940417 commented 2 months ago

您好,我在运行过程中出现了这个问题,请问是什么造成的呢? image

lishuangshuang0616 commented 2 months ago

内存超了

Tc940417 commented 2 months ago

@lishuangshuang0616 ,好滴谢谢你。顺便问一下,gff基因注释文件转成gtf后再进行过滤数据库后生成的文件是0字节的,请问是什么问题呀?

lishuangshuang0616 commented 2 months ago

过滤后的gtf文件截图一下前10行我看一下

Tc940417 commented 2 months ago

@lishuangshuang0616 您好,我是使用dnbc4tools tools mkgtf --ingtf Medicago_falcata.genome.gtf --out Medicago_falcata.filter.gtf --type gene_type,这个代码,gtf文件前十行如下图 image 最后输出过滤后文件为0字节文件

Tc940417 commented 2 months ago

image 这样的

lishuangshuang0616 commented 2 months ago

mkgtf这个步骤是可选的,你的gtf似乎也没有gene_type的标注可以不用过滤。 mkgtf过滤还会读取第三列为gene的行(软件写的固定,下个版本优化),所以输出为空。 这个gtf不用过滤就行。

Tc940417 commented 2 months ago

我这边使用不过滤的文件构建的数据库,跑完dnbc4tools,数据结果很差,很多都在基因间区,但是我用另外的同源的基因注释文件(可以过滤的)跑出来的就很好,是不是这个没办法过滤的基因注释文件不是很好?

lishuangshuang0616 commented 2 months ago

嗯嗯,过滤gtf的基因类型不会使你的间区比例减小,相反可能会更高。 如果你的gtf结果很差,那么可能的原因之一使gtf文件注释准确性一般。

Tc940417 commented 2 months ago

@lishuangshuang0616 image 而且会有很多这种warning!信息,非常感谢老师答疑!

lishuangshuang0616 commented 2 months ago

应该是transcript行的gene_id与他下面的exon的gene_id不一致导致的

Tc940417 commented 2 months ago

好的,谢谢您的解答