vloux / ProteoRE

GNU General Public License v3.0
2 stars 5 forks source link

"Number of MS/MS observations in a tissue (from Peptide Atlas)": data source to be pre-processed before use #125

Closed yvandenb closed 6 years ago

yvandenb commented 6 years ago

Les fichiers PeptideAtlas downloades (après query cgi du site peptideatlas.org) sont à l'échelle peptidique (chaque peptide observes pour une prot donnée est compté et reporté par prot => plsuierus lignes pour une même prot! ) demande de post-processer ce fichier une fois rapatrié pour ramener le nombe à l'echelle de la proteine (et non de chaque peptide) et que le tool utilise ce fichier résultant et non l'originelle pour exclure de l'outil l'étape de calcul du nbre d'obs/prot et le rendre plus performant - merci Timing ASAP

yvandenb commented 6 years ago

From David: Je suis en train de voir pour alléger les fichiers ref de "number of MS/MS observations in a tissue", peux tu me dire ce que je dois retirer des fichiers ? Je peux déjà retirer les isoformes j'imagine, mais étant donné qu'il n'y a déjà que les protéines humaines dans le fichier je ne suis pas sur de ce que je dois retirer d'autre.

yvandenb commented 6 years ago

A partir des fichiers rapatriés par une requête PeptideAtlas, par exemple pour "Human Blood plasma": QUERY PA to retrieve human build 2018 by tissue: atlas_build_id=472 (build 2018) organism_id=2 (homo sapiens) sample_category_id=13 (Blood plasma) https://db.systemsbiology.net/sbeams/cgi/PeptideAtlas/GetPeptides?atlas_build_id=472&display_options=ShowMappings&organism_id=2&sample_category_id=13&QUERY_NAME=AT_GetPeptides&output_mode=tsv&apply_action=QUERY Le fichier que tu récupères possède un header à plusieurs colonnes: celles qui sont d'interet sont : Col B: peptide_sequence (la seq du peptide qui matche la proteine identifiée) Col C: biosequence_name (l'identifiant de la protéine; sont reportés les identifiants Uniprot, Ensembl et Refseq; les seuls qui t'interessent sont les Uniprot canonique (tu peux donc effectivement retirer les identifiants Uniprot contenant un tiret (par ex. O75882-2) qui sont les isoformes)
Col E: n_observations (c'est nbre de fois où le peptide a été vu par MS/MS) Maintenant comme une protéine peut être identifiée par plusieurs peptides différents, et comme l'outil renvoit à l'utilisateur une valeur globale pour la protéine, il faut donc sommer la valeur en Col E associée à chaque peptide appartenant à la même protéine; dans l'exemple ci-dessous: image la protéine "P04424" a été identifiée par 5 peptides distincts vu chacun un certain nombre de fois; le nombre total d'observations MS/MS pour cette protéine sera donc la somme de la colonne "n_observations" soit 4074

Ainsi en supprimant les identifiers "non-Uniprot" et les ids "Uniprot-isoform"; puis pour chaque identifiant Uniprot, en calculant le nbre total d'observations, tu devrais pouvoir réduire drastiquement le nbre de ligne de chaque fichier

davidchristiany commented 6 years ago

Merci c'est beaucoup plus clair, je garde seulement les uniprot id du coup ? Je peux retirer tout ce qui est ensembl id etc ?

yvandenb commented 6 years ago

Nous avons fait le choix d'Uniprot comme point d'entrée pour cet outil => donc oui :-)

davidchristiany commented 6 years ago

J'ai modifié l'outil ainsi que le data manager pour utiliser des fichiers pré-processés. L'étape de pré-process est faite directement dans le data manager, j'ai adapté le script R pour qu'il utilise ces nouveaux fichiers. L'étape de calcul pour cet outil est maintenant bien plus rapide (pour les deux ids de l'exemple, ça prend moins d'une minute avec les 7 tissues).