BiodiversiteQuebec / bdqc_taxa

`BIOQC-taxa` is a python package that interface with *Biodiversité Québec*'s database to query reference taxa sources, parse their return and generate records.
0 stars 0 forks source link

Corrected removal of duplicated entries + remove fuzzy synonyms #24

Closed BenMerSci closed 3 weeks ago

BenMerSci commented 1 month ago

Modification à la fonction _prune_parent_taxa():

Modification à la fonction from_all_sources():

  1. Réintroduction de la partie de code qui retire les entrées dupliquées de out, et ce peu importe si un parent_scientific_taxa est présent ou non (ce qui résolvait #14)

On recevait 2 fois la même branche taxonomique pour un taxon si il y a un synonyme, donc on injectait 2 fois la même hiérarchie dans taxa_ref, exemple: Bubo scandiacus et sa hiérarchie: Biota, Animalia, Chordata, ..., Striginae, Bubo et Bubo scandiacus. MAIS retourne aussi: Bubo scandiaca et la même hiérarchie: Biota, Animalia, Chordata, ..., Striginae, Bubo et Bubo scandiaca. SAUF que la hiérarchie du synonyme a un match_type == None au lieu de exactdonc le bout de code ajouté conserve seulement les doublons avec match_type == exact.

  1. Ajout d'une ligne qui retire les entrées de out qui sont match_type == 'fuzzy' et valid = False

S'assure de ne pas injecter les synonymes fuzzy comme discuté avec Vincent

BenMerSci commented 1 month ago

Ajouté des tests qui confirment le comportement des précédents changements, donc:

  1. L'utilisation de la fonction from_all_sources renvoie la même quantité d'information qu'il y ait un parent_scientific_name ou non
  2. Que les synomyes non désirés (tests de Bubo scandiaca) et que les synonymes désirés (test de Hyla versicolor versicolor) soient incluent ou excluent
BenMerSci commented 1 month ago

Finalement retiré la portion de code qui retirait les synonymes, et ils seront finalement tous injectés (out = [ref for ref in out if not (ref.valid == False and ref.match_type == 'fuzzy')])

Retiré aussi les tests qui y étaient associés.

BenMerSci commented 1 month ago

J'ai finalement aussi updaté la custom_sources cdpnq avec la liste la plus à jour (LFVQ) sur données Québec.