How to handle paired-end fastqs

monovich commented 3 years ago

Hi there. I really appreciate your continued work on this tool.

For my use case, I have paired-end read data (R1.fq, R2.fq). What is the appropriate way to prepare/input these files for use with CB2? It's not clear to me from the source / documentation what would be the correct approach.

hyunhwan-jeong commented 3 years ago

Hi @monovich, CB2 currently only supports single-end FASTQ files. To support your paired-end read files, I may need further information regarding it. Could you provide further details?

Thank you,

Hyun-Hwan Jeong

monovich commented 3 years ago

Certainly. I have 150 bp paired-end reads for my sgRNA abundance quantification, which is probably overkill for 23nt guides, but it was what our sequencing core is now providing by default to standardize library preps. Obviously providing both files to CB2 doesn't work, so I will need to generate some sort of single file input. I could just utilize the reads from R1 if you think that is appropriate, or I could generate an interleaved FASTQ, but I suspect CB2 would see that as simply twice as many reads treating R1 and R2 as unpaired, so that may skew calculated statistics.

Example first 3 reads from my first sample's R1 and R2 file (as you can see they are paired):

==> 3579-AI-1_TTGAACCG-ATAGGATC_S216_R1_001.fastq <==
@A00437:378:H3JYFDSX2:1:1101:5141:1000 1:N:0:TTGAACCG+ATAGGATC
TNGTGGAAAGGACGAAACACCGCTCCGTCCCCTCCTGCCGCGGTATAAGAGCTATGCTGGAAACAGCATAGCAAGTTTAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTGAATTCTAGATCTTGA
+
F#FFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFF:,FFFFFFFFFFFFFFFFFFFF:FFFFFF:,FFFFFFFFFFFFFF:FFFFFF,::FFFFFFFF:FFFFFFFF:FFFFF:FFF,FFFFFF:,FFFF,FFF,FFFFFFFF
@A00437:378:H3JYFDSX2:1:1101:8793:1000 1:N:0:TTGAACCG+ATAGGATC
TNGTGGAAAGGACGAAACACCGTTGGAACAAAGAAAACTCCCGTTTAAGAGCTATGCTGGAAACAGCATAGCAAGTTTAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTCGAATTCTAGATCTTGA
+
F#FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFF:FFFFFFFFF:FFFFFFFFFFFFFFF:FF:FFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFF
@A00437:378:H3JYFDSX2:1:1101:12897:1000 1:N:0:TTGAACCG+ATAGGATC
TNGTGGAAAGGACGAAACACCGGAACAGGCAGACACATCTCAGTTTAAGAGCTATGCTGGAAACAGCATAGCAAGTTTAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTGAATTCTAGATCTTGA

==> 3579-AI-1_TTGAACCG-ATAGGATC_S216_R2_001.fastq <==
@A00437:378:H3JYFDSX2:1:1101:5141:1000 2:N:0:TTGAACCG+ATAGGATC
TCTACTATTCTTTCCCCTGCACTGTACCCCCCAATCCCCCCTTTTCTGTTAAAATTGTGGATGAATACTGCCATTTGTCTCAAGATCTAGAATTCAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATT
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFF:F,FFFFFFFFF:FFFFFFFF:F:FFF,FFFFF,FF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFF:FFF
@A00437:378:H3JYFDSX2:1:1101:8793:1000 2:N:0:TTGAACCG+ATAGGATC
TCTACTATTCTTTCCCCTGCACTGTACCCCCCAATCCCCCCTTTTCTTTTAAAATTGTGGATGAATACTGCCATTTGTCTCAAGATCTAGAATTCGAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATT
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,F:FFFFF,FFFF:FFFFFFFF:FFFFFFFF::FFFFFF:FFF:,FFFFFFFFFFFFFFFFFF:FFF:F:FFFFFF:FFFFFFFF,FF::F:FFFFFFFFFFFF::FFFF
@A00437:378:H3JYFDSX2:1:1101:12897:1000 2:N:0:TTGAACCG+ATAGGATC
TCTACTATTCTTTCCCCTGCACTGTACCCCCCAATCCCCCCTTTTCTTTTAAAATTGTGGATGAATACTGCCATTTGTCTCAAGATCTAGAATTCAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATT

hyunhwan-jeong commented 3 years ago

Based on my experience, every guide would be located at a constant location (of course, it can be a bit staggered). So, I guess most guides would appear at one of the ends. In other words, if you see a lot of guides in R1, you may not need to use R2. Have you checked the mappability of each R1 and R2? It helps my assumption is correct or not. Otherwise, it will be time to find plan B.

Hyun-Hwan Jeong

monovich commented 3 years ago

That makes good sense. I just quickly ran my R1 file from above on its own through bwa and it looks like I'm getting 99% alignment, so I'll probably just go ahead and use my R1 files. Thanks for the clarification.

hyunhwan-jeong commented 3 years ago

No problem, I think we can close the issue.

hyunhwan-jeong / CB2

How to handle paired-end fastqs #12