MGI-tech-bioinformatics / DNBelab_C_Series_HT_scRNA-analysis-software

An open source and flexible pipeline to analysis high-throughput DNBelab C Series single-cell RNA datasets
MIT License
71 stars 24 forks source link

关于软件是否存在checkpoint机制的询问 #105

Closed biginfor closed 2 months ago

biginfor commented 2 months ago

尊敬的开发者: 您好!我在分析scBCR-Seq数据时遇到了以下几个问题: 1.当dnbc4tools vdj run开始使用TRUST4(v1.1.1)执行contig Assembly 和annotation时,出现如下报错: assembly - ERROR - Command failed with exit code 137. Read in and count kmers for 8800000 reads. Killed. 软件并不显示更多的报错原因。但是当我使用log文件中出现的命令行单独运行,一切似乎又正常了,是因为我在开始的运行代码中设置了过多的线程并行的原因吗? 以下是初始运行代码: dnbc4tools vdj run \ --fastq1 sample1_1_R1.fastq.gz sample1_2_R1.fastq.gz sample1_3_R1.fastq.gz\ --fastq2 sample1_1_R2.fastq.gz sample1_2_R2.fastq.gz sample1_3_R1.fastq.gz \ --beadstrans /scRNA/test/output/singlecell.csv \ --ref Human \ --name test \ --threads 25 \ --chain IG 2.我注意到主程序其实是分步骤进行的,下游步骤出错,上游结果依然存在,我想问该pipeline是否有对应的断点机制,使得当下游任务失败时,不必再耗时耗力从头进行分析? 3.在执行dnbc4tools rna run时,没有加上--end5参数(即使我们的下机数据是5' scRNA-Seq),对下游分析(如基于表达矩阵的单细胞聚类分群以及相应的scBCR-Seq和scTCR-Seq联合分析)有多少影响?

热切期盼您的回复!

lishuangshuang0616 commented 2 months ago

您好,软件版本建议使用压缩包的2.1.3版本,可以和FBS沟通使用(目前还未正式发布)。 1.软件报错是因为分析中测序的reads数量过于多导致需要极大的内存而被killed,可以查看01.data/sequence_report.tsv文件看下reads数量,建议低于100M。你使用的这个版本存在比较大的问题(切分fastq多线程分析这块),不建议使用。 2.RNA需要使用--end5分析,不适用会导致捕获mRNA非常低,合并也会出现错误,RNA的结果也会不正确,影响细胞聚类分群。VDJ仅使用合并结果用于合并。5端一定需要加上--end5。 3.断点机制的话,--process 会有几个字符串,对应目录的不同输出,已完成的可以不用方进去,比如你的data已经完成再跑assembly,那么重新分析就是--process assembly,filter,report来分析。不过你这个不是5端,建议删除已分析的目录全部重新分析。

切记,使用压缩包版本dnbc4tools2.1.3。

biginfor commented 2 months ago

首先非常感谢您及时而详细的回复!其次,请问FBS是贵公司的软件支持部门吗,有无相应的联系方式? 谢谢!

lishuangshuang0616 commented 2 months ago

因为看到你们已经在测试VDJ和5端了,可以和你们沟通的相关人员询问新版本软件的问题。

biginfor commented 2 months ago

好的,谢谢!