In some cleaved peptides, number of cleavage sites > number of defined missed cleavages

manogenome commented 3 years ago

When we digest proteins with a certain number of missed cleavages (0:M), the maximum number of cleavage sites per peptide is expected to be in the ranges (0, M). But for a certain number of peptides, the number of cleavage sites in it exceed the missedCleavages value specified in the initial digestion.

In the below example case, we can see there are 78 peptides that have more than 2 cleavage sites, even though the allowed number of missed cleavages was defined as missedCleavages=0:2 during trypsin digestion.

Test proteins fasta: proteins.fasta.gz

library(cleaver)

## read fasta
proteins <- readAAStringSet("proteins.fasta.gz")

## number of proteins in proteins.fasta
length(proteins)
## [1] 38

## digest proteins with trypsin
cleaved <- cleaver::cleave(proteins, missedCleavages = 0:2, enzym = "trypsin")

## unlist into AAStringSet
peptides <- unlist(cleaved)

## rename individual peptides as: id::peptide
names(peptides) <- paste0(base::strsplit(names(cleaved), "\\|")[[1]][2], 
                          "::", as.character(peptides))

## get cleaved sites within peptides
missed <- cleaver::cleavageSites(peptides, enzym = "trypsin")

## number of peptides with cleavage sites > 2
length(missed[elementNROWS(missed) > 2])
## [1] 78

## peptides with more with cleavage sites > 2
head(missed[elementNROWS(missed) > 2])

## $`A6NL46::RRKK`
[1] 1 2 3

$`A6NL46::RRKK`
[1] 1 2 3

$`A6NL46::RRAVSMDNGAKFLR`
[1]  1  2 11

$`A6NL46::RRPMIYVESSEESSDEQPDEVESPTQSQDSTPAEEREDEGASAAQGQEPEADSQELVQPKTGCELGDGPDTK`
[1]  1 36 60

$`A6NL46::RRQEGKCK`
[1] 1 2 6

$`A6NL46::RRGSSIPQFTNSPTMVIMVGLPARGK`
[1]  1  2 24

And there's also a mismatch between the number of ranges and peptides after enzymatic digestion:

cleaved <- cleaver::cleave(proteins, missedCleavages = 0, enzym = "trypsin")
ranges <- cleaver::cleavageRanges(proteins, missedCleavages = 0, enzym = "trypsin")
sites <- cleaver::cleavageSites(proteins, enzym = "trypsin")

sum(lengths(cleaved))
## [1] 17072
sum(lengths(ranges) )
## [1] 23260
sum(lengths(sites))
## [1] 23222 
sum(lengths(sites)) + length(proteins)
## [1] 23260

peptides <- unlist(cleaved)
names(peptides) <- paste0(base::strsplit(names(cleaved), "\\|")[[1]][2], 
                          "::", as.character(peptides))
missed <- cleaver::cleavageSites(peptides, enzym = "trypsin")
length(missed[elementNROWS(missed) > 0])
## 55

sgibb commented 3 years ago

Thanks for your report and your great example. It was really a though task.

First I like to start with the easy one, your second question. The reason for the mismatch between the number of ranges and peptides after enzymatic digestion is the argument unique = TRUE. Because of that all duplicated cleavage results are filtered, e.g.

library("cleaver")

cleave("RRK")
#> $RRK
#> [1] "R" "K"
cleave("RRK", unique = TRUE)
#> $RRK
#> [1] "R" "K"
cleave("RRK", unique = FALSE)
#> $RRK
#> [1] "R" "R" "K"