Closed yvandenb closed 4 years ago
J'ai vérifié les fichiers sources pour construire le fichier "release" utilisé par l'outil, à savoir :
Et il s'avère que l'id ENSG00000129991 n'est plus associé à P19429 mais à K7EN02 qui lui ne fait pas parti des uniprot-AC reviewed. Il n'y a pas/plus d'ID Ensembl associé à P19429.
Donc de mon point de vue il n'y a pas d'erreur.
je ne comprends pas ces 2 mêmes fichiers HUMAN_9606_idmapping.dat.gz 05-08-19 que tu indiques ??
Sinon, un diff entre release 05-08-2019 (May) et 06-05-2019 (June) pourrait clarifier ??
en particulier pour https://www.uniprot.org/uniprot/P19429 => Uniprot indique un referencement sur ENSG00000129991 , this is disturbing...
Ce sont les deux fichiers que je télécharge sur le site d'uniprot pour construire le fichier ref (il y a aussi le fichier nextprot).
Oui il semble que la modification ai eu lieu entre la release de 05-08-2019 et celle de 06-05-2019
Il y a visiblement eu un souci avec la release de juin. Cf le diff entre les deux versions : https://www.uniprot.org/uniprot/P19429?version=193&version=192&diff=true
Merci d'avoir regardé, ce n'est donc pas de notre côté...et il y a un soucis pour un certain nbre d'ID UP qui apparaissent "NA" si on utilise la release "05-JUN-2019" => il faudrait la masquer ds l'outil ID_converter, afin qu'un user ne puisse l'utiliser, pourriez-vous vous en charger (à moins que l'ajout d'un "commentaire" à cette option dans le wrapper suffise) ?
Je ne sais pas quel est le mieux, dans tout les cas il faut mettre un message car pour moi on ne peut pas juste supprimer la release sans rien dire alors que des utilisateurs s'en servent.
Je serais plus partant pour mettre un disclaimer dans les commentaires en effet.
Petite précision, ce n'est pas uniquement sur la release de juin que les ensembl ID lié à P19429 on été retiré mais sur toutes les suivantes aussi. Actuellement, sur la current release d'uniprot on n'a toujours pas d'ID Ensembl lié à P19429. Vous êtes sûr que c'est une erreur de leur part ?
Si tu vas sur Uniprot: Pour la forme Reviewed entry: https://www.uniprot.org/uniprot/P19429#cross_references Il n'y pas de cross-references sur Ensembl dans la section "Genome annotation databases"
Pour la forme Unreviewed entry: https://www.uniprot.org/uniprot/K7EN02#cross_references On trouve ENSG00000129991 dans la section "Genome annotation databases"
Mais sur Ensembl: https://www.ensembl.org/Homo_sapiens/Gene/Summary?g=ENSG00000129991;r=19:55151767-55157773
la cross-ref Uniprot est P19429 !!
Ce serait a priori une asynchronie d'une base à l'autre...mais cela reste incomprehnesible pourquoi l'entrée Ensembl a disparu du fichier de mapping (et encore une fois, ce n'est pas limité à P19429)
Je serais plus partant pour mettre un disclaimer dans les commentaires en effet.
Je ne pense pas que bcp de monde utilise cette release sachant qu'on a mis à jour proteore il y a 2 semaines...je serai pour masquer la release ID-mapping 05-06-2019 mais cela reste à discuter @Valentin, @Flo: any opinion ?
A mon avis :
Retirer la banque en mettant un disclaimer en dessous de l'annonce de release
OK pour moi
Demander à Uniprot (Nextprot) d'où vient le souci ?
Uniprot a priori: https://www.uniprot.org/contact
Ok, je m'occupe du disclaimer demain (et de retirer la banque). Yves, tu contactes Uniprot ?
Yves, tu contactes Uniprot ? => Yes
Mail de David du 1/10/2019 for follow-up j'ai oublié les fichiers refs qui sont trop gros pour être en pièce jointe ... J'ai mis les fichiers sur le drive partagé ProteoRE_ProjectTeam dans le dossiert tmp_id_converter: https://drive.google.com/open?id=16IA612N-yiOjMqjD_pbuwDP-T9-oBENd
Je suis en train de vérifier la construction des fichiers refs avec le data manager pour l'outil id_converter. Les grandes étapes de la construction du fichier ref (un gros .csv), on a:
Le problème ici est que l'ajout des ids 'neXtProt', 'BioGrid', 'STRING' et 'KEGG' se base sur les ids uniprot-AC. Etant donné que les uniprot-AC unreviewed sont effacés avant, ces ids ne sont ajoutés que pour les 20430 uniprot-AC reviewed.
Yves, est-ce que tu peux me confirmer que tes ids manquant se trouve bien là ?
La solution la plus simple est de supprimer les uniprot-AC non reviewed après l'ajout des ids 'neXtProt', 'BioGrid', 'STRING' et 'KEGG', si c'est bien ce que l'on veut.
Réponse Yves: Pour continuer sur cette perte d’ID : dans le cadre du tuto « biomarker of heart tissue-leakage », on a un proteine qui doit être là quoiqu’il arrive : c’est TNNI3 – P19429 ; c’est une entrée « reviewed » dans Uniprot (https://www.uniprot.org/uniprot/P19429) Avec ID-converter (option source ENSG_Id to target « UP_AC » et NP_ID »), ce que l’on observe: Avec la release homo sapiens 10/10/2018 : ENSG00000129991 TNNI3 Troponin I type 3 (cardiac) NX_P19429 P19429 Avec la release homo sapiens 08/05/2019 : ENSG00000129991 TNNI3 Troponin I type 3 (cardiac) NX_P19429 P19429 Jusqu’ici tout va bien Mais Avec la release homo sapiens 05/06/2019: Cette entrée est perdue, alors qu’elle devrait être là !?
David, penses-tu que le processus des construction des dictionnaires puisse expliquer la perte de cet protéine ID ?
Question supp : sur l‘ihm de ID-converter est indiqué « For Uniprot-AC and uniprot-ID, only reviewed IDs are considered here, except for release before 08-05-2019 where all uniprot-AC and uniprot-ID (at the time) are considered. », pour être sûr : seules les releases homo sapiens 10/10/2018 Et 10/05/2019, contiennent des reviewed et unreviewed tandis que la release 05/05/2019 contient des reviewed ? => David tu confirmes ?
Je partage le workflow: http://www.proteore.org/u/yvdb/w/workflow-constructed-from-history-selectionoftissueleakagecandidatebiomarkers
From David: Je suis encore en train de vérifier mais de mon point de vue il n'y a pas d'erreur, je m'explique. Mon fichier ref et après mon dictionnaire sont tous les deux construit à partir des fichiers uniprots ("idmapping_selected.tab.gz","idmapping.dat.gz"). Il n'y a pas d'erreur ni lors de la construction du fichier ref avec le data manager ni lors de la construction du dictionnaire avec id_converter.
S'il n'y a plus de correspondance entre P19429 et ENSG00000129991, c'est parce que cette relation n'existe plus dans les nouvelles versions des fichiers uniprot ("idmapping_selected.tab.gz","idmapping.dat.gz"):
Pour la release du 08/05/19 on a toujours la relation:
P19429 TNNI3_HUMAN 7137 NP_000354.4 404573630; 34811374; 1048348663; 34811377; 1012443822; 159162719; 827342905; 151101270; 225733908; 34811371; 37428; 288965286; 136213; 34811380; 159162663; 303324718 1J1D:C; 1J1D:F; 1J1E:C; 1J1E:F; 1LXF:I; 1MXL:I; 1OZS:B; 2KGB:I; 2KRD:I; 2L1R:B; 2MZP:I; 2N7L:C; 4Y99:C; 5VLN:A; 5W88:A; 5WCL:A; 6MV3:A GO:0097512; GO:1990584; GO:0005829; GO:0030017; GO:0005861; GO:0003779; GO:0051015; GO:0019855; GO:0048306; GO:0046872; GO:0019904; GO:0019901; GO:0030172; GO:0031014; GO:0060048; GO:0006874; GO:0060047; GO:0007507; GO:0006936; GO:0030049; GO:0032780; GO:0010882; GO:0006940; GO:0001980; GO:0003009; GO:0001570; GO:0055010 A61229 115210; 191044; 611880; 613286; 613690 ENSG00000129991 ENST00000344887 ENSP00000341838 NX_P19429 112991 9606.ENSP00000341838 hsa:7137 Pour la release du 05/06/19 l'id ENSG n'est plus associé:
P19429 TNNI3_HUMAN 7137 NP_000354.4 404573630; 34811374; 1048348663; 34811377; 1012443822; 159162719; 827342905; 151101270; 225733908; 34811371; 37428; 288965286; 136213; 34811380; 159162663; 303324718 1J1D:C; 1J1D:F; 1J1E:C; 1J1E:F; 1LXF:I; 1MXL:I; 1OZS:B; 2KGB:I; 2KRD:I; 2L1R:B; 2MZP:I; 2N7L:C; 4Y99:C; 5VLN:A; 5W88:A; 5WCL:A; 6MV3:A GO:0097512; GO:1990584; GO:0005829; GO:0030017; GO:0005861; GO:0003779; GO:0051015; GO:0019855; GO:0048306; GO:0046872; GO:0019904; GO:0019901; GO:0030172; GO:0031014; GO:0060048; GO:0006874; GO:0060047; GO:0007507; GO:0006936; GO:0030049; GO:0032780; GO:0010882; GO:0006940; GO:0001980; GO:0003009; GO:0001570; GO:0055010 A61229 115210; 191044; 611880; 613286; 613690 NX_P19429 112991 9606.ENSP00000341838 hsa:7137
Je vais revérifier avec les archives de uniprot, je suis en train de les télécharger mais ce sont 2 fichiers de plus de 90Go chacuns et ça download très lentement ... En tout cas il n'y a plus de correspondance entre P19429 et ENSG00000129991 dans la current release.
"seules les releases homo sapiens 10/10/2018 Et 10/05/2019, contiennent des reviewed et unreviewed tandis que la release 05/05/2019 contient des reviewed ? " Tout à fait.
Effectivement les seuls mappings UP <-> Ensembl qui subsistent dans les fichiers UP (release Sept 2019) sont ENSG00000129991 K7EN02 ENSG00000129991 K7EJP0 Ces 2 AccNum UP étant des unreviewed ; en revanche que ce soit dans Ensembl ou neXtProt, le mapping « P19429 <-> ENSG00000129991 » est maintenu (accédés via leur interface)! Bref, je viens d’écrire à Uniprot, espérons qu’on y verra plus clair… Dear Uniprot team,
I lost a link between a UniProt Ac and an Ensembl_gene Id while updating 'Id_mapping' file from Uniprot ftp site. Precisely, from the "UP000005640_9606.idmapping" file downloaded from the current_release (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/reference_proteomes/Eukaryota/), we noticed that the 'P19429' is not anymore mapped to 'ENSG00000129991' whereas this link was there in the release of May 2019. Yet we had a look in Ensembl (https://www.ensembl.org/Homo_sapiens/Gene/Summary?g=ENSG00000129991;r=19:55151767-55157773) and neXtProt (https://www.nextprot.org/entry/NX_P19429/identifiers) and noticed that this link is still maintained...P19429 being a reviewed entry for quite a long time, we wonder why this link/mapping between UP <-> Ensembl was removed from your mapping file. Please could you help us ? Best regards, Yves
Réponse de UniProt: "Dear Yves,
thank you very much for using UniProt, and for contacting our helpdesk.
It seems that in reviewed human entries, one of the conditions for adding or keeping a cross-reference to Ensembl is that the Swiss-Prot and the Ensembl entries have to be linked to the same HGNC entry (Otherwise there is a risk of mixing up paralogs). Ensembl sometimes looses some HGNCs when they update, and when they do a big update, they can loose many. I am told that in general they "find" them again later, i.e. the cross-references will come back when Ensembl re-attributes the corresponding HGNC links, hopefully with the next Ensembl release (due in December I think).
Does this make sense?"
de façon intéressante cela pointe ce que les utilisateurs nous ont également fait remonter durant les formations: l'absence de mapping entre le gene_name HGNC et les autres ID (e.g Ensembl ou UP)...qui pour le coup, existe dans le fichier de mapping : UP000005640_9606.idmapping =>
P19429
J'ai modifié le data manager pour ajouter les gene_name aux futurs fichiers refs (seulement en local pour l'instant). J'ai ajouté l'option "Gene Name" dans le wrapper d'id converter. Le problème qui en découle c'est que les anciens fichiers refs n'ont pas de Gene Name et cette option n'est valable que pour les nouveaux fichiers refs.
Je vais voir si j'arrrive à m'en sortir avec des options du xml mais je ne pense pas. Il faudrait alors ajouter les Gene Name aux anciens fichier refs (un peu bricolé mais faisable) ou alors laisser seulement la dernière release avec les Gene Name.
=> Le problème qui en découle c'est que les anciens fichiers refs n'ont pas de Gene Name et cette option n'est valable que pour les nouveaux fichiers refs.
Il me semble que dans le code du wrapper, il est possible de rendre le menu de choix des ID targets à selectionner, contextuel; i.e. qui s'adapte en fonction de la valuer de l'option "Release"...oui ?
En théorie oui c'est possible, mais je ne l'ai jamais fais. Je vais voir ça.
Je ne crois pas que ça soit possible finalement. La seule façon que je vois de le faire est d'utiliser les balises \<conditional> et \<when>. Sauf que pour la balise when, il faut connaitre à l'avance le nom de la release, rendant cette option imcompatible avec les release faite par le data manager et listées dans un fichier loc. Je ne vois pas d'autres options pour le faire et les macros ne sont pas utiles dans ce cas là.
Je pourrais le faire facilement en cheetah (python dans le xml) mais cela n'est autorisé que dans les balises \<command> et \<output> donc impossible aussi.
Ce que je peux faire:
Merci David d'avoir regardé de plus près, à ce stade il est urgent de ne rien faire, plutôt d'en discuter de vive voix...peux-tu te joindre au telCo de mardi prochain 9h30 pour que nous puissions arbitrer ensemble?
oui pas de soucis
Actuellement nextprot n'est pas disponible: ftp://ftp.nextprot.org/
Ce qui m'empèche d'avancer sur id converter, je ne sais pas quand cela sera de nouveau disponible.
Après avoir regardé plus en détail les fichiers à refaire: Il n'y a pas de problème pour ajouter les gene_name mais je me suis rendu compte qu'ajouter à posteriori les uniprot-AC est difficilement réalisable, car je n'ai pas le même fichier idmapping dans les archives que celui que j'utilise lors de la construction des fichiers refs.
J'ai envoyé un mail à uniprot et à nextprot en espérant pouvoir récupérer les bons fichiers.
Merci David, je viens aussi d'envoyer un mail ce matin à Lydie Lane (directrice neXtProt) pour la notifier...à suivre
Nextprot -> FTP Ok David relance Uniprot pour une réponse concernant id_mapping_selected.tab
Les anciens fichiers ne sont plus disponible, même sur demande auprès d'uniprot. Il faut faire un parser spécifiques pour les fichiers archives.
J'ai mis les dernières versions d'id converter sur proteore-migale. Les dernières releases ont été faite par le data manager installé sur proteore-migale. J'attends votre feu vert avant de les passer en prod.
Issue with "reviewed" (column is created) vs "reviewed+unreviewed" (no column), in the same line, in the "target type" section, the Uniprot option is repeated twice (though written differently) see below
It works fine for me (I tested 3 organisms, 1 list each).
But (as Yves noticed): in the menu to select/unselect the type of IDs to map to, there is different lines for the same choice:
Uniprot accession number (reviewed only)
Same comments...please, could you fix that whatever the species selected
(column is created) vs "reviewed+unreviewed" (no column),
The column is not created when this is the same type as the input (for any input id). I corrected options in "target type", the last version is on proteore-migale
Tested the new ID-converter (migale-proteore) and noticed some "strange" behavior:
3 target type of ID selected : => 2 new columns created while 3 would have been expected (in agreement with my selection)
Important: Make the user doc section (target type of ID) consistent with the interface :
What was your input ? If it was Uniprot-AC, you should expect 2 new columns with your selection since you already have an uniprot-AC column. That's how it works now. Do you want to remove that check and create a new column of ID even if it is the same column in input ?
I will standardize it.
Pour votre info, j'ai refait le tuto "Biomarkers" dans le contexte des demos à venir...dans les résultats connus se trouve le biomarker de reference pour l'infarctus: TNNI3 | Troponin I type 3 (cardiac). Selon la release utilisée dans ID_converter, il est là ou il disparait Les identifiants pour TNNI3 sont ENSG00000129991(Ensembl) ET P19429 (Uniprot) Test ID-converter:
Output: OK : one ENSG_ID -> multiple UniprotAccNum (l'AccNum UP reviewed est "P19429")