PnX-SI / TaxHub

Application de gestion des taxons
GNU General Public License v3.0
24 stars 31 forks source link

Problème avec doublons sur le "nom complet" dans taxhub #568

Closed blaisegeo closed 1 month ago

blaisegeo commented 1 month ago

Bonjour,

J'ai un problème avec ce taxon : Muscicapa striata. En essayant de comprendre, je me rends compte qu'il y a des doublons, triplets, jusqu'à sextuplets au moins sur le champ "lb_nom" dans la table taxonomie.taxref. Il y en a 15744 sur toute la table, et 15 en ce qui concerne les Aves, classe qui me concerne.

Lorsque je requête la table taxonomie.taxref sur le champ lb_nom :

select * from taxonomie.taxref t where t.lb_nom = 'Muscicapa striata';

j'obtiens deux enregistrements, mais ils ont une petite différence sur le champ "nom complet" : cd_nom : 4319 --- nom_complet : Muscicapa striata (Pallas, 1764) cd_nom : 813834 --- nom_complet : Muscicapa striata Forster, 1772 Il s'agit du gobemouche gris et de la paruline rayée, la paruline rayée est originaire d'Amérique, il y a quelques observations parfois en France, mais ce sont des cas importés et elle ne niche pas. Par contre le gobemouche gris est commun en France.

Lorsque je cherche 'Muscicapa striata' dans taxhub, j'obtiens 4 résultats : cd_nom | cd_ref | Nom complet | Nom vernaculaire 813834 627671 Muscicapa striata Forster, 1772 Paruline rayée, Sylvette rayée 4319 4319 Muscicapa striata (Pallas, 1764) Gobemouche gris 4321 4319 Muscicapa striata striata (Pallas, 1764) Gobemouche gris 4322 847121 Muscicapa striata tyrrhenica Schiebel, 1910 Gobemouche tyrrhénien, Gobemouche méditerranéen

Lorsqu'on consulte les pages de l'INPN avec ces 4 cd_nom, on obtient respectivement :

https://inpn.mnhn.fr/espece/cd_nom/627671 redirige automatiquement vers : https://inpn.mnhn.fr/espece/cd_nom/627671 : Paruline rayée, Sylvette rayée (Français) Setophaga striata (Forster, 1772)


https://inpn.mnhn.fr/espece/cd_nom/4319 : Gobemouche gris (Français) Muscicapa striata (Pallas, 1764)


https://inpn.mnhn.fr/espece/cd_nom/4321 redirige automatiquement vers : https://inpn.mnhn.fr/espece/cd_nom/4319


https://inpn.mnhn.fr/espece/cd_nom/4322 redirige automatiquement vers : https://inpn.mnhn.fr/espece/cd_nom/847121

Il semble donc que la paruline rayée ait deux noms latins différents dans taxhub : "Muscicapa striata Forster, 1772" et "Setophaga striata (Forster, 1772)", alors que la redirection automatique sur le site de l'INPN "revient" à ne lui donner qu'un seul nom latin : "Setophaga striata (Forster, 1772)" (cd_nom = 627671).

Je viens de remarquer que je suis en version 1.14.1 de taxhub et qu'il y a une nouvelle version 1.14.2 datant de septembre, je vais l'installer pour voir s'il y a une différence.

Mon problème est que je dois importer des observations qui n'ont pas l'information de cd_nom. J'essaie de le retrouver à l'aide du nom latin de la table taxonomie.taxref. Ca fonctionne globalement bien, sauf pour quelques cas comme celui-là. Je vais devoir passer en revue les 15 doublons que j'ai repéré dans la classe Aves.

camillemonchicourt commented 1 month ago

Quelle est ta version de TaxHub et de Taxref ?

camillemonchicourt commented 1 month ago

OK, je viens de regarder. Le sujet que tu soulèves n'est pas liée à TaxHub ni à sa version. Le sujet du contenu de la table Taxref de TaxHub est liée à Taxref de l'INPN et de la version que tu utilises.

En l'occurrence, tout ce que tu remontes est bien présent dans la version actuelle de Taxref, en ligne sur l'INPN. Il y a bien 2 taxons différents qui ont chacun un synonymes, donc 4 noms au total :

blaisegeo commented 1 month ago

Moui ? Pas sûr de tout bien comprendre quand même, sauf que je ne peux pas me baser sur le champ lb_nom pour déterminer à 100% le cd_nom vu qu'il y a 15 doublons dans la classe qui m'intéresse.

Je suis encore en TaxHub 1.14.1, je vais mettre à jour en 1.14.2, je n'avais pas vu que la nouvelle version était sortie récemment.

Pour Taxref, j'ai dû installer la v16 lorsque j'ai installé GeoNature ce printemps dernier. Puis lorsque j'ai commencé à m'intéresser à la sensibilité il y a quelques semaines, j'ai lu dans la doc d'admin que la commande suivante devait le mettre à jour en v17 :

geonature sensitivity add-referential \ --source-name "Référentiel sensibilité TAXREF v17 20240325" \ --url https://geonature.fr/data/inpn/sensitivity/RefSensibiliteV17_20240325.zip \ --zipfile RefSensibiliteV17_20240325.zip \ --csvfile RefSensibilite_17.csv \ --encoding=utf-8

Ce que j'ai fait, puis la commande :

geonature sensitivity refresh-rules-cache

Par contre, dans la base de données, table taxonomie.taxref, le champ meta_v_taxref est toujours à "Taxref V16.0". Aurais-je oublier quelque chose ? Ce champ ne devrait-il pas être à V17 maintenant ?

camillemonchicourt commented 1 month ago

Passer de TaxHub 1.14.1 à 1.14.2 ne changera rien. Les sujets que tu soulèves sont liés au contenu du référentiel national Taxref géré par l'INPN. L'INPN fournit une nouvelle version de Taxref chaque année : https://inpn.mnhn.fr/programme/referentiel-taxonomique-taxref

Nous fournissons une procédure de mise à jour de Taxref qui est à appliquer indépendamment de la mise à jour de TaxHub : https://github.com/PnX-SI/TaxHub/tree/master/apptax/taxonomie/commands/migrate_taxref

La procédure que tu as exécutée a mis à jour le référentiel de sensibilité de l'INPN au niveau de GeoNature (en version 17), mais tu n'avais pas mis à jour Taxref au préalable (au niveau de TaxHub) en passant de la v16 à la v17, donc ça peut poser soucis de faire cela. Il faut mettre à jour Taxref avant de mettre à jour le référentiel de sensibilité correspondant.

blaisegeo commented 1 month ago

Ah ok, merci pour les précisions ! Je ne suis pas certain que ce soit bien clair au niveau de la doc, ou alors j'ai mal lu / mal compris. Je classe l'issue comme résolue.