PnX-SI / gn_module_export

Module GeoNature d'export
GNU General Public License v3.0
7 stars 10 forks source link

OpenData et Biodiversité #21

Open orovellotti opened 5 years ago

orovellotti commented 5 years ago

Un premier jet sur un document sur l'opendata et la biodiversité. Open Data et Biodiversité.docx

orovellotti commented 5 years ago

Une première MAJ V0.1

Open Data et Biodiversité.docx

camillemonchicourt commented 5 years ago

Merci.

orovellotti commented 5 years ago

Voila la toute dernière version Joyeux Noel Open.Data.et.Biodiversite 1.7.docx

orovellotti commented 5 years ago

Est ce que vous pouvez me dire ça vous convient ?

camillemonchicourt commented 5 years ago

OK merci pour ce document.

Amaadou commented 5 years ago

Open-Data.pdf Voici le document Open Data

camillemonchicourt commented 5 years ago

Merci, c'est bien mis en forme

frmichel commented 5 years ago

Bonjour,

Bravo pour ce document, je le trouve très bien construit, clair et complet. Il aborde les points importants en restant au bon niveau de détails je pense.

Je joins le PDF (Open-Data-franck.pdf) dans lequel j'ai ajouté pas mal de commentaires concernant des erreurs mineures (typos, orthographe ou redites). Redites-moi si vous avez des problèmes pour voir les remarques (je n'utilise pas Adobe PDF reader).

J'ai eu plus de mal avec la partie qui me concerne, soit parce qu'elle a été moins relue que les autres, soit parce que je suis forcément plus critique sur celle-ci. Complqué de mettre toutes mes remarques comme des commentaires dans le PDF, du coup je vais lister cela juste après, dans un commentaire séparé.

Le diagramme du LOD cloud page 23 est sur fond blanc, c'est dommage. J'en ai fait une version avec fond transparent que je joins également (LOD cloud.pptx). J'y ai ajouté une bulle montrant TAXREF-LD mais c'est peut-être inutile, je vous laisse juge.

En tout cas il faut ajouter la référence (si on parle de licence ouverte et qu'on la ne respecte pas... c'est moche ;) ) : Linking Open Data cloud diagram, 2019. J.P. McCrae, A. Abele, P. Buitelaar, A. Jentzsch, V. Andryushechkin and R. Cyganiak. http://lod-cloud.net/

Franck.

frmichel commented 5 years ago

Comme indiqué dans mon commentaire précédent, voici mes remarques concernant les pages 22-23 dans lesquelles j'ai reformulé des phrases/paragraphes trop floues ou ambiguës. J'ai aussi pris la liberté de changer le style qui me semblait assez familier, plutôt du genre discussion autour d'une bière ;).

Entretien avec Franck Michel, chercheur au Laboratoire d’informatique, signaux, système de l’Université Nice Sophia-Antipolis (Cnrs, Inria).

Entretien avec Franck Michel, ingénieur de recherche au Laboratoire d’informatique, signaux, système de Sophia-Antipolis (Université Côte d'Azur, CNRS, Inria).

les défis de l'Opendata

les défis de l'open data

Que l’on est le même vocabulaire, les mêmes outils. C’est un énorme challenge. On a besoin de ces technologies pour pouvoir répondre à des questions du type: quel est l’impact du changement climatique, sur telle espèce, dans telle zone géographique, par exemple.

Que l’on utilise des vocabulaires et des formats standards pour publier les données ouvertes. C’est un énorme challenge. On a besoin de ces outils pour pouvoir croiser des données issues de communautés différentes, et répondre à des questions comme par exemple: quel est l’impact du changement climatique sur telle espèce, dans telle zone géographique.

Il s’agit de représenter les données pour que les machines puissent les traiter pour nous et les agréger parce qu’à l’échelle humaine, ce n’est plus possible. Il y en a trop !Et pour qu’elles puissent le faire, il faut que les données soient représentées avec une signification explicite pour elles et que les liens le soient aussi. Autrement dit, au lieu de décrire les choses comme des PDF ou des pages web, on va les décrire sous un format standard, manipulable par une machine et en utilisant un vocabulaire lui aussi standard, sur lequel tout le monde s’est mis d’accord. Les principes de ce web sémantique ont été énoncés par l’inventeur du web Tim Berners-Lee. Il propose d’attribuer des identifiants uniques, à toutes les informations, les idées, les concepts qu’on manipule: une plante, une personnalité publique, …Il a aussi proposé que l’on utilise le web comme infrastructure pour échanger les descriptions des ressources. Si les identifiants uniques sont des URI http, il suffira de les rentrer dans le navigateur pour recevoir une description de la ressource dans un standard (RDF) qui soit compris par les machines.

Il s’agit de représenter les données pour que les machines puissent les traiter et les agréger pour nous. Car cela devient impossible à l’échelle humaine tant les données sont nombreuses, volumineuses et de natures différentes. Et pour qu’elles puissent le faire, il est nécessaire de représenter de façon explicite la signification des données et des relations entre elles. Autrement dit, au lieu de décrire les choses dans des PDF ou des pages web, nous devons les décrire selon un format standard, manipulable par une machine, en utilisant des vocabulaires eux aussi standards et dont la signification soit comprise et partagée par tous les acteurs. De cette façon, on étend le web que nous connaissons, un web de documents destinés aux humains, avec un web de données destiné aux machine. Les principes de ce web de données ont été énoncés par l’inventeur du web, Tim Berners-Lee. Il propose d’attribuer des identifiants uniques à toutes les informations, les idées, les concepts que nous manipulons : une plante, une personnalité publique, … Il a aussi proposé que l’on utilise le web comme infrastructure pour échanger les descriptions des ressources. Dans ce contexte, les identifiants uniques sont des URI http. Il suffit alors à un humain d'entrer un URI dans un navigateur pour recevoir une page web décrivant la ressource, pendant qu'une machine peut utiliser le même URI pour obtenir une représentation de la ressource dans un format standard qu'elle sait manipuler (RDF).

tle Muséum. Cette institution maintient à jour Taxref, le référentiel taxonomique pour la France. Il recense 270 000 espèces et compte plus de 550 000 noms scientifiques. C’est un inventaire et une classification, par genre, par famille, par ordre, qui comporte aussi des informations sur les habitats, les observations, les programmes de conservation. Nous travaillons à transformer cette classification dans les standards du web sémantique, le RDF, à donner des URI aux espèces notamment. Notre objectif est aussi de la lier avec d’autres classifications produites ailleurs, par des liens hyper-texte…

Cette institution gère et maintient à jour TAXREF, le référentiel taxonomique pour la France métropolitaine et l'outremer. Il recense environ 270 000 espèces et compte plus de 550 000 noms scientifiques. C’est un inventaire et une classification, par genre, par famille, par ordre etc., auquel s'ajoutent des informations sur les habitats, les observations, les programmes de conservation de la biodiversité. Nous travaillons à transformer TAXREF dans les standards du web de données, le RDF, en donnant notamment des URI à chaque espèce. Notre objectif est aussi de lier chaque URI d'espèce aux URI correspondants dans d'autres référentiels internationaux, afin de favoriser l'interopérabilité entre tous les jeux de données qui s'appuient sur ces référentiels.

L’enjeu dans l’avenir est aussi de pouvoir répondre à des questions qui exigent de collecter des données issues de champs scientifiques très différents et cloisonnés. Est-ce qu’un gène issu de telle population a un impact sur la construction des écosystèmes où elle vit? Aujourd’hui, on ne sait pas le faire. Car il s’agit de domaines de recherche tellement différents, qui produisent des données qui ne sont pas du tout les mêmes que les requêter en même temps, est impossible. On n’a pas encore les outils nécessaires à cette transversalité.

L’enjeu, dans l’avenir, est aussi de pouvoir répondre à des questions qui exigent de collecter et requêter des données issues de champs scientifiques très différents, et qui traversent donc des champs multiples de la connaissance. Est-ce que tel gène de telle espèce a un impact sur la construction des écosystèmes où elle vit ? Aujourd’hui, on ne sait pas encore le faire. Car il s’agit de réconcilier des données représentant la complexité du vivant à des niveaux multiples (molécule, protéine, gène, cellule, phénotype, espèce, écosystème...). Les recherches actuelles visent à créer les outils nécessaires pour explorer cette transversalité.

orovellotti commented 5 years ago

Voila la dernière mouture Open-Data-bis.pdf

Il nous faut un déscriptif du module plus detaillé @patkap

Merci

frmichel commented 5 years ago

Bonjour, bravo, beau résultat.

Je n'ai pas tout relu, mais voici déjà les typos que j'ai notées au passage :

Franck.

frmichel commented 5 years ago

Bonjour @orovellotti, du nouveau concernant ce document ? Publié quelque part ?

camillemonchicourt commented 4 years ago

Maintenant qu'on a une version 1 bien complète du module (https://github.com/PnX-SI/gn_module_export/releases), on va pouvoir finaliser ce document pour lequel il faut clarifier l'objectif et la cible.

En attendant, je l'ai mentionné dans la présentation générale du module : https://github.com/PnX-SI/gn_module_export#autres

orovellotti commented 4 years ago

Ok pour ajouter de le doc sur le module. On le publié comment du coup ?

Est ce qu’il y a une journée technique Aten, ou pour le Hackathon?

Merci