vloux / ProteoRE

GNU General Public License v3.0
2 stars 5 forks source link

id converter : mapping nextprot #225

Closed davidchristiany closed 5 years ago

davidchristiany commented 5 years ago

Améliorer la correspondance entre les uniprot-AC et les Nextprot.

davidchristiany commented 5 years ago

@yvandenb peux tu m'indiquer le job où tu as des problèmes de conversion entre les nextprot et les uniprot-AC ?

Est-ce que ça peut être un problème de mise à jour ? La dernière mise à jour sur proteore.org du fichier ref de id converter date de 10/2018, ce n'est donc pas à jour et dans la nouvelle liste de nextprot il y a 81 ids supplémentaires. Peut être que l'erreur vient de là.

yvandenb commented 5 years ago

Instance proteore.org History "Dark_Proteome_uPE1_052019" shared with you item n°130 par ex: NX_P0DPQ6 NX_P0DPP9 NX_Q3ZM63 NX_P0DPB3

pointent sur un "NA" en conversion Uniprot AccNum

davidchristiany commented 5 years ago

La liste des nextprot ajoutés dans la release du 13 février (seulement 30 en fait) :

NX_A0A075B706 NX_A0A075B767 NX_A0A0K2S4Q6 NX_A0A1B0GX56 NX_A0A286YEV6 NX_A0A286YEX9 NX_A0A286YEY9 NX_A0A286YF01 NX_A0A286YF46 NX_A0A286YF60 NX_A0A286YF77 NX_A0A286YFB4 NX_A0A286YFG1 NX_A0A2R8Y4Y8 NX_A0A2R8YFL7 NX_A0A2R8YFM6 NX_A0JD36 NX_A0JD37 NX_G2XKQ0 NX_P01733 NX_P01737 NX_P04435 NX_P04437 NX_P0DPP9 NX_P0DPQ3 NX_P0DPQ4 NX_P0DPQ6 NX_P0DPR3 NX_Q3ZM63 NX_W6CW81

On retrouve bien tes ids nexprot qui pose problème. Ca sera corrigé avec la mise à jour des fichiers refs.

davidchristiany commented 5 years ago

Pour P0DPB3, le problème est autre, voici la ligne correspondante dans le fichier ref : P0DPB3 ... NX_Q9P0W5

J'ajoute les nextprot id manquant et il y en a deja un pour l'uniprot-AC "P0DPQ6" c'est pour cela qu'il n'est pas ajouté.

Est-ce que je l'ajoute quand même ? on aurait : P0DPB3 ... NX_Q9P0W5;NX_P0DPB3

Si mes souvenirs sont bons on avait décidé de garder uniquement le nextprot id déjà présent.

(la différence entre les 81 nextprot ids manquant annoncé et la liste de 30 vient de cela, si un nextprot id est déjà présent, il n'est pas ajouté)

davidchristiany commented 5 years ago

J'ai trouvé comment récupérer les uniprot-AC "reviewed" , grace à l'API de uniprotKB : https://www.uniprot.org/help/api_queries

Par exemple pour l'homme, on a : https://www.uniprot.org/uniprot/?query=reviewed:yes+AND+organism:9606&format=list

pour la souris : https://www.uniprot.org/uniprot/?query=reviewed:yes+AND+organism:10090&format=list

Pour ajouter l'option des uniprot reviewed ou non dans id converter, je pense que le mieux (et le plus simple) est d'ajouter un nouveau choix en dessous de "uniprot-AC", soit "uniprot-AC (reviewed only). Comme ça on peut avoir tous les uniprots et/ou les uniprots vérifés en une seule requête.

Cela vous va ?

yvandenb commented 5 years ago

C'est une excellente suggestion, je vote pour !

davidchristiany commented 5 years ago

La nouvelle version est disponible sur proteore-migale avec toutes les modifs prévues. Le data manager a aussi été mis à jour.

yvandenb commented 5 years ago

Testé ce jour sur proteore-migale history "Test_ID-converter" shared with David image

Ne fonctionne pas... Il faut également mettre à jour l'interface : image param release doit être documenté (date) Target type : Remplacer "UniProt accession number (e.g. P31946)" par "UniProt accession number (e.g. P31946 - reviewed and unreviewed entries) Remplacer "UniProt accession number (reviewed only)" par "UniProt accession number (e.g. P31946 - reviewed entries only) et le placer au-dessus User doc à mettre à jour en conséquence: Ajouter ces nouvelles infos dans la section "Parameters" Mettre à jour section "Data sources (release date)"
N.B. : merci de ne pas fermer l'issue tant que ce n'est pas testé/validé

davidchristiany commented 5 years ago

je suis en train de remettre au propre, je suis encore en train de faire des corrections. C'est normal si l'outil n'a pas forcement les bonnes options pour l'instant.

davidchristiany commented 5 years ago

id converter est de nouveau utilisable avec l'ancienne et la nouvelle release ainsi que la maj de la doc sur proteore-migale.

yvandenb commented 5 years ago

item n°5 Testé avec un mapping complet (20000 entrées et tous les ID selectionnés) : planté item n°7 testé avec un mapping de 2200 NP entries sur 5 types d'ID différents => OK See below image