PnX-SI / GeoNature-atlas

Application WEB permettant de générer des fiches espèces publiques à partir d'observations faune/flore
GNU General Public License v3.0
44 stars 48 forks source link

Annotation sémantique / Bio schéma #530

Open orovellotti opened 5 months ago

orovellotti commented 5 months ago

Il serait pertinent d'annoter les page espèces de GeoNature atlas avec des annotation sémantique de type Schema.org et bioschema.org

Un exemple ici sur le site de l'inpn avec du Json-LD dans la page

image

https://inpn.mnhn.fr/espece/cd_nom/53604

Le site bioschemas listes les sites compatible Bioschemas, si l'atlas n'est pas répertorié, il est possible de faire une pull request pour que notre instance soit ajoutée.

Il est aussi possible de remplir un formulaire pour donner les détails du déploiement ici : https://bioschemas.org/developer/liveDeploys#nav-profile

Nous pourrions ainsi maintenir un catalogue d'instances de GeoNature / Atlas

Le scrapper BMUSE permet ensuite de scrapper diffèrent sites et construire un knowledge graph https://github.com/HW-SWeL/BMUSE

orovellotti commented 5 months ago

Ici un projet similaire en BioInfo

"an umbrella consortium for central management of protein disorder related tools and databases"

image

frmichel commented 5 months ago

Et dans la foulée, on pourrait relancer l'activité biodiversité à Bioschemas en proposant la création de nouveaux profiles :

orovellotti commented 4 months ago

Quand on demande a GPT des données précise sur le département du 13 il ne peut pas répondre. https://chatgpt.com/share/f6daaf37-5cf2-45d1-9429-c31de9b66607?oai-dm=1

On pourrait imaginer d'enrichir un LLM avec ces données suturées pour en faire un générateur de rapport d'ABC :)

camillemonchicourt commented 4 months ago

Je pense qu'il vaudrait mieux privilégier se brancher sur une base de données globale et agrégée, comme l'INPN ou le GBIF, plutôt que d'aller chercher de manière éparpillée et partielle sur plein de petits GeoNature-atlas de structures diverses. Et plutôt faire en sorte de fluidifier la remontée des données depuis les producteurs vers ces bases de données agrégatrices.

orovellotti commented 4 months ago

Effectivement pour les données lier à la taxonomie il y a une approche centralisée (inpn, mnhn) mais internet est un monde ouvert et il existe un très grand nombre de sites possédant des données de biodiversité( (hors service public et hors France, hors SINP).

Pour ne cite que quelques source (oiseau.net, ecobalade, ou encore IUCN, Birdlife, movebank ...

Les modèles comme GPT sont généralement entraînés sur des ensembles de données massifs comprenant des milliards de mots provenant de milliers à millions de documents web.

Pour info le site de l'inpn contiens déjà des annotations en Json-LD grâce a @frmichel et olivier G

Mais effectivement la problématique de moissonnage et de centralisation mérite d'être réfléchie peut être dans une autre issue.

omaralaziz commented 4 months ago

Le knowledge graph résultant pourrait servir à créer une base de données vectorielle qui alimenterait une IA générative. Ca permettrais de créer un chatbot qui pourra utiliser les données scrapées du knowledge graph pour répondre aux questions de l'utilisateur. Cette technique est connue sous le nom de RAG (Retrieval augmented generation) : https://datascientest.com/retrieval-augmented-generation-tout-savoir