vloux / ProteoRE

GNU General Public License v3.0
2 stars 5 forks source link

Request from reviewer in "Proteomics": tool selecting unique peptide for SRM/MRM method devpt SRM Atlas #238

Closed yvandenb closed 5 years ago

yvandenb commented 5 years ago

Referee n°2: "- It would be useful to include a script/tool that allows selecting proteotypic unique peptide from neXtProt for a list of candidate proteins, which would support quick targeted PRM, MRM method development." L'idée est de pouvoir ajouter à notre liste de candidat (proteines) les peptides proteotypiques connu pour aider le biologiste au design de ses methodes SRM/MRM (pour faire du targeted) Ce que fait l'outil : prend une liste (ou une table) contenant des UniprotAccNum et renvoit la liste de tous les peptides proteotypiques associés à chaque prot (>=1 peptide pour une proteine)
La ressource: nous allons utiliser la reference SRMAtlas (Kusebauch et al; 2016, Cell) Human SRMAtlas: => 166,174 proteotypic peptides representing the human proteome - Resource of verified high-resolution spectra and multiplexed SRM assays. Le fichier en download ici:
http://www.srmatlas.org/downloads/HumanSRMAtlasPeptidesFinalAnnotated.xlsx Ce fichier est de la forme: image Les infos qui nous interessent sont: Col A. sequence (du peptide) Col B; SSR (Sequence Specific Retention time provides a hydrophobicity measure for each peptide) Col C: length (peptide length) Col E: PA_Acc (PeptideAtlas Accession Col J: Prot_acc (Uniprot Accession number)

de fait pour le wrapper, INPUT: list or table containing Uniprot AccNum (only) PARAMS:

  1. Version de SRM_atlas (pour l'instant une seule release "Human SRM Atlas 2016-04")
  2. Col A, B, C, D, E pourraient être les paramètres à selecitonner (avec "sequence" coché par défaut) RUN: la clé de croisement est donc Uniprot AccNum (input Id <-> Col J de la resource) - Attention le match entre l'accNum en input et l'accNum col J doit être strictement exact - en effet en col J on peut avoir des formes canoniques (e.g A0AV02) mais aussi des isoformes (e.g. A0AV02-3), voire plusieurs AccNum dans la colonne (e.g A0M8Q6.P01842.P0CF74) ou des trucs plus exotiques (A0FGR8_SNP) OUTPUT: Les infos du fichiers en input + les params demandés (a minima la seq du peptide avec 1 peptide par ligne, donc possiblement plusieurs lignes pour une meme proteine) ou un NA qd il n'existe pas de peptide associé Qu'en pensez-vous ? et Combien de temps à votre avis pour faire le proto ?
davidchristiany commented 5 years ago

C'est un outil simple à développer, je dirais un peu moins de deux jours pour faire un outil sur proteore-migale.

yvandenb commented 5 years ago

Any volunteer ? ;-)

davidchristiany commented 5 years ago

Je peux faire ça, le fichier source n'est disponible qu'au format excel ? (je peux m'en accomoder) Ok pour une seule séquence par ligne.

davidchristiany commented 5 years ago

Une idée du nom de l'outil ?

yvandenb commented 5 years ago

Je confirme: le fichier source n'est dispo qu'au format excel et oui un seul peptide (sequence) par ligne avec les attributs suivants en params Col A. sequence (du peptide) (param coché par défaut) Col B; SSR (Sequence Specific Retention time provides a hydrophobicity measure for each peptide) Col C: length (peptide length) Col E: PA_Acc (PeptideAtlas Accession Col J: Prot_acc (Uniprot Accession number) (la clé pour croisement "join") Pour le nom "Get unique peptide SRM/MRM method [SRM Atlas]" qu'en dis-tu...Merci David, cela nous permet de répondre positivement au reviewer n°2 ! :)

davidchristiany commented 5 years ago

Pour le mapping des Uniprot-AC, je laisse toutes les formes donc ? avec les "snp" et les "d" c'est bien ça ? Avec un mapping exact?

davidchristiany commented 5 years ago

et pas de colonne D avec le type ?

yvandenb commented 5 years ago

Pour le mapping des Uniprot-AC, je laisse toutes les formes donc ? avec les "snp" et les "d" c'est bien ça ?

il s'agit d'un match strcit entre l'accNum donné en input et l'AccNum du tableau image dans cet exemple, si l'AccNum en input est A6NGD5, seules les 5 premières lignes seront retournées et pas "A6NGD5.Q9BUG6" ou "A6NGD5_SNP"

et pas de colonne D avec le type ?

pas besoin, cette colonne n'est pas informative, elle indique l'amino-acid droit de la séquence (site de clivage trypsique par ex. K ou R)

yvandenb commented 5 years ago

autre exemple de match d'AccNum image si AccNum en input = Q8WYN0 alors les 4 premières lignes sont retournées si AccNum en input = Q8WYN0-5 (i.e. isoforme n°5 de la forme canonique QWYN0) alors seule la dernière ligne qui matche strcitement sera retournée

--

davidchristiany commented 5 years ago

dans cet exemple, si l'AccNum en input est A6NGD5, seules les 5 premières lignes seront retournées et pas "A6NGD5.Q9BUG6" ou "A6NGD5_SNP"

Je ne comprends pas pourquoi on ne retourne pas "A6NGD5.Q9BUG6", les deux protéines sont concernées, donc pourquoi ne pas retourner la séquence lorsque qu'on a soit "A6NGD5", soit "Q9BUG6" ?

Ou alors je ne retourne l'info que lorsque j'ai exactement "A6NGD5.Q9BUG6" ?

yvandenb commented 5 years ago

parce que, a priori, cela veut dire que le sequence peptidique est commune à ces 2 entrées, or, quand on fait du "targeted" en SRM on veut que le peptide soit unique/spécifique (i.e. proteotypique) de la protéine que l'on cible...ça c'est c'est pour les cas de type "A6NGD5.Q9BUG6" - pour le cas de l'accNum annoté "A6NGD5_SNP" en col. J, cela indique que le peptide est spécifique de la protéine et cible (ou correspond à) la partie séquence qui porte un SNP...cette info pourrait être intéressant...à toi de voir si c'est facile de discriminer lors du matching d'AccNum "A6NGD5.Q9BUG6" (qu'il faut ne pas retourner) de "A6NGD5_SNP" (que l'on pourrait retourner)...?

davidchristiany commented 5 years ago

Donc si j'ai bien compris:

C'est bien cela ?

davidchristiany commented 5 years ago

La première version de Get unique peptide SRM-MRM method [SRM Atlas] est disponible sur proteore-migale

yvandenb commented 5 years ago

Retour de test: History GetPeptideTEST shared with David/Flo/val OK pour les tests de coherence avec fichier source; ok en mode copy/paste, en mode input list; ok sur la gestion error msg si input incorrect (see item n° 5) – well done, on y est presque ! Ci-dessous les améliorations/corrections

  1. Ajout du param « MW » correspondant à la Col. F « mw » du fichier source ; cette info (poids moléculaire) est de toute évidence fondamentale pour la spectro de masse ! je suis désolé de cet oubli my bad :-/

  2. Modif des intitulés d’en-tête pour l’ouput : remplacer « sequence / ssr / length / PA_Acc » Par «PeptideSeq / SSRT / Length / MW / PA_AccNum

  3. Modif du wrapper/IHM : Remplacer "Enter IDs » par « Enter IDs (Uniprot Accession number, e.g. P04746)» Remplacer “Column number of IDs to map » par « Column number of IDs”

Remplacer «Protein sequence/Features Select/Unselect all Protein sequence SSR (Sequence Specific Retention time provides a hydrophobicity measure for each peptide) Length (peptide length) PeptideAtlas Accession (PA_Acc)"

Par

"Peptide sequence/features Select/Unselect all Peptide sequence SSRT (Sequence Specific Retention Time) Length (peptide sequence length) MW (Molecular weight) PeptideAtlas Accession (PA_Acc) "

UserDoc Section version corrigée:

Description

This tool allows to retrieve unique proteotypic peptide and related information (from SRMAtlas) for building Selected Reaction Monitoring (SRM) method using a list of Uniprot accession number as input. The SRMAtlas is a compendium of targeted proteomics assays resulting from high-quality measurements of natural and synthetic peptides conducted on a triple quadrupole mass spectrometer, and is intended as a resource for building selected/multiple reaction monitoring (SRM/MRM)-based proteomic methods.

Input

A list of IDs (entered in a copy/paste mode) or a single-column file, the tool will then return a file containing the selected information (peptide sequence/features). If your input is a multiple-column file, the column(s) containing the selected information will be added at the end of the input file. Only Uniprot accession number (e.g. P31946) are allowed. If your list of IDs is not in this form, please use the ID_Converter tool of ProteoRE.

Accession numbers with an hyphen ("-") that normally correspond to isoform are not considered as similar to its canonical form.

In copy/paste mode, the number of IDs considered in input is limited to 5000.

Parameters

Release: choose the release you want to use for retrieving peptide sequences/features Peptide sequence/features: select peptide features you want to retrieve; Peptide sequence (amino acid sequence of detected peptide, including any mass modifications); SSRT (Sequence Specific Retention Time provides a hydrophobicity measure for each peptide using the algorithm of Krohkin et al. SSRCalc); Length (peptide sequence length); MW (molecular weight); PeptideAtlas Accession (PA_Acc).

Output: A text file containing the selected peptide features (in addition to the original column(s) provided). Please, note that a "NA" is returned when there is no match between a source ID and SRM/MRM source file.

Data sources (release date)

This tool is using the following source file:

HumanSRMAtlasPeptidesFinalAnnotated (2016-04) (Kusebauch et al., 2016, PMID: 27453469).

Authors ETC...

davidchristiany commented 5 years ago

La nouvelle version est disponible sur proteore migale, j'ai modifié:

yvandenb commented 5 years ago

OK pour moi, et pour déploiement sur proteore.org Section Human Annotation, placée/listée en dessous de l'outil "Get MS/MS observations in tissue/fluid [Peptide Atlas]" - Merci bcp David

davidchristiany commented 5 years ago

L'outil est deployé sur proteore.org