BGI-flexlab / SOAPnuke

A Tool for integrated Quality Control and Preprocessing on FASTQ or BAM/CRAM files
GNU General Public License v3.0
100 stars 27 forks source link

合并gz测序文件并过滤问题 #69

Open fallinwind opened 2 months ago

fallinwind commented 2 months ago

您好,我在用SOAPnuke version2.1.7过滤二代数据时,因需要合并两次下机的数据,我使用了zcat合并再gzip压缩的方法合并了rawdata去跑fiilter,之后觉得zcat太慢了,直接使用cat合并了两次下机的fq.gz去跑filter;但最后发现使用zcat合并和cat合并跑filter的结果是不同的,这个是为什么呢,后来跑了两遍zcat发现跑两次zcat的结果是一样的,说明过滤计算可重现的。我也比较了zcatcat合并后解压出来的fastq,发现是一样的呀,但为什么两种方法合并的数据跑filter得到了两种不同的结果呢,是程序内部解压的方式的原因吗,还是有其他原因呢,使用cat合并fq.gz的数据跑filter的结果可以使用吗?

berry08 commented 2 months ago

您好,"我也比较了zcat和cat合并后解压出来的fastq,发现是一样的呀",您说的一样是怎么判断的,两者的md5码一样吗?另外,如果是多个fastq输入文件,可以直接以文件列表形式输入的,在config里配置inputAsList参数,不用提前合并文件