Off-targets with no genomic location

sarahhcarl commented 6 years ago

Hi,

Thanks for the work on this tool! I'm helping a collaborator design guide RNAs for a CRISPR screen in mouse, and so far it's been really useful. However, I'm having an issue when trying to design sgRNAs with a PAM sequence of NNGRRT (corresponds to S. aureus). I'm running only the target_ident task, and it predicts many appropriate targets - however, it also predicts many more off-targets than for the standard NGG PAM, with all other parameters the same. Beyond that, when I examine the predicted off-targets, many of them have no genomic location (Match.Target = "*" and Match.Chromosome = "NA"). I am using the parameter "offtargetdb=cDNA", so I expect to get off-targets only within exons, if I understand it correctly.

Here is a look at the first 17 lines of my "all_results_together.tab" file, which appears to predict 2 real targets for the Xkr4 gene:

1  ENSMUSG00000051951_63_8483     26          1 3216039 3216065  minus TGCCCTTATTCAGGAGAGGC TGGAAT ENSMUSG00000051951::Xkr4
2  ENSMUSG00000051951_63_8483     26          1 3216039 3216065  minus TGCCCTTATTCAGGAGAGGC TGGAAT ENSMUSG00000051951::Xkr4
3  ENSMUSG00000051951_63_8483     26          1 3216039 3216065  minus TGCCCTTATTCAGGAGAGGC TGGAAT ENSMUSG00000051951::Xkr4
4  ENSMUSG00000051951_63_8483     26          1 3216039 3216065  minus TGCCCTTATTCAGGAGAGGC TGGAAT ENSMUSG00000051951::Xkr4
5  ENSMUSG00000051951_63_8483     26          1 3216039 3216065  minus TGCCCTTATTCAGGAGAGGC TGGAAT ENSMUSG00000051951::Xkr4
6  ENSMUSG00000051951_63_8483     26          1 3216039 3216065  minus TGCCCTTATTCAGGAGAGGC TGGAAT ENSMUSG00000051951::Xkr4
7  ENSMUSG00000051951_63_8483     26          1 3216039 3216065  minus TGCCCTTATTCAGGAGAGGC TGGAAT ENSMUSG00000051951::Xkr4
8  ENSMUSG00000051951_63_8483     26          1 3216039 3216065  minus TGCCCTTATTCAGGAGAGGC TGGAAT ENSMUSG00000051951::Xkr4
9  ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
10 ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
11 ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
12 ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
13 ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
14 ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
15 ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
16 ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
17 ENSMUSG00000051951_62_8483     26          1 3216032 3216058   plus GTTTCATATTCCAGCCTCTC CTGAAT ENSMUSG00000051951::Xkr4
                              Transcripts                           Transcript...Exon Number.of.Cpg.Islands.hit
1  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
2  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
3  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
4  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
5  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
6  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
7  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
8  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
9  _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
10 _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
11 _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
12 _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
13 _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
14 _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
15 _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
16 _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
17 _ENSMUST00000162897_ENSMUST00000070533 ENSMUST00000070533::3 ENSMUST00000162897::1                        NA
   Sequence.around.the.cutside X.A..C..T..G S.Score A.Score Custom.Score Doench.Score Xu.Score percent.of.total.transcripts.hit
1                           NA  32 17 25 25       0 10.3333            0            0        0                         22.22222
2                           NA  32 17 25 25       0 10.3333            0            0        0                         22.22222
3                           NA  32 17 25 25       0 10.3333            0            0        0                         22.22222
4                           NA  32 17 25 25       0 10.3333            0            0        0                         22.22222
5                           NA  32 17 25 25       0 10.3333            0            0        0                         22.22222
6                           NA  32 17 25 25       0 10.3333            0            0        0                         22.22222
7                           NA  32 17 25 25       0 10.3333            0            0        0                         22.22222
8                           NA  32 17 25 25       0 10.3333            0            0        0                         22.22222
9                           NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
10                          NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
11                          NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
12                          NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
13                          NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
14                          NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
15                          NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
16                          NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
17                          NA  39 10 21 28       0 10.3333            0            0        0                         22.22222
         Match.Target   Match.Chromosome Match.Start Match.End                Matchstring Editdistance Number.of.Hits Direction Start_rti
1                   *               <NA>           0         0                       <NA>            0              8      <NA>     10138
2                   *               <NA>           0         0                       <NA>            0              8      <NA>     10138
3                   *               <NA>           0         0                       <NA>            0              8      <NA>     10138
4                   *               <NA>           0         0                       <NA>            0              8      <NA>     10138
5                   *               <NA>           0         0                       <NA>            0              8      <NA>     10138
6                   *               <NA>           0         0                       <NA>            0              8      <NA>     10138
7  ENSMUSG00000051951 ENSMUSG00000051951         285       311 nnnnMMMMMMMMMMMMMMMMMMMMMM            0              8        fw     10138
8  ENSMUSG00000051951 ENSMUSG00000051951        2056      2082 nnnnMMMMMMMMMMMMMMMMMMMMMM            0              8        fw     10138
9                   *               <NA>           0         0                       <NA>            0              9      <NA>     10131
10 ENSMUSG00000051951 ENSMUSG00000051951        2059      2085 MMMMMMMMMMMMMMMMMMMMMMnnnn            0              9        rc     10131
11 ENSMUSG00000051951 ENSMUSG00000051951         288       314 MMMMMMMMMMMMMMMMMMMMMMnnnn            0              9        rc     10131
12                  *               <NA>           0         0                       <NA>            0              9      <NA>     10131
13                  *               <NA>           0         0                       <NA>            0              9      <NA>     10131
14                  *               <NA>           0         0                       <NA>            0              9      <NA>     10131
15                  *               <NA>           0         0                       <NA>            0              9      <NA>     10131
16                  *               <NA>           0         0                       <NA>            0              9      <NA>     10131
17                  *               <NA>           0         0                       <NA>            0              9      <NA>     10131
   End_rti
1    10164
2    10164
3    10164
4    10164
5    10164
6    10164
7    10164
8    10164
9    10157
10   10157
11   10157
12   10157
13   10157
14   10157
15   10157
16   10157
17   10157

I am confused about how to interpret these predictions. Do you think this is a bug, or are all of these off-targets real? If they are real, why do they apparently have no location?

Thanks for your help, Sarah

fheigwer commented 6 years ago

Dear Sarah, It looks you are using CLD as intended. The cDNA mapping could be erroneous. I understand the confusing result. The "*" means that this sequence could not be mapped to the transcriptome. This means, it probably spans an exon/intron junction or is located in an intron. You get this report because CLD creates all possible PAMs that are encoded by NNGRRT and appends them to the target and then matches all possible sequences to the target genome. So, for one target sequence (one ID) you can get lots of hits with different PAMs (e.g ACGTACGT AAGAAT or ACGTACGT GCGAAT). If that cannot be matched to the transcriptome you get lots of "*" entries. The end-to-end function does not count those as off-targets, as they are rather mapping artifacts. I can have a look if I can improve the reporting of CLD on that side and hope my answer could shed some light.

Best and Happy New Year, Florian

sarahhcarl commented 6 years ago

Dear Florian,

Thanks for your reply, that definitely helps me understand what's going on. But just to clarify, if you look at the first 8 lines above, they all have the target sequence "TGCCCTTATTCAGGAGAGGC TGGAAT". However, what you're saying is that the off-target matches could have a PAM other than TGGAAT, right? Maybe it would be useful to add a column with the actual matched off-target sequence?

Additionally, I also got some "*" entries when I ran the query with "offtargetdb=genomeDNA" (although many fewer). Do you have any idea what those could be, as presumably they are not intronic or exon/intron junction hits?

Thanks again, Sarah

boutroslab / cld

Off-targets with no genomic location #14