okfnfr / CITES-biodiversity

CITES project
6 stars 0 forks source link

Sortir des illustrations libres de EOL.org qui correspondent à des espèces CITES #4

Open cecilaki opened 4 years ago

cecilaki commented 4 years ago

EOL (Encyclopedia Of Life), est un projet de bio-encyclopédie collaborative en ligne, inspirée du système de Wikipédia, mais rédigée principalement par des experts. L'idée est que chaque espèce connue puisse être répertoriée et illustrée de vidéos,sons, images, et de textes fournis par des experts. Toutes les photos présentes dans EOL ne sont pas forcément libres de droit.

Afin de faire référencer sur Wikidata les illustrations manquantes des espèces CITES qui sont déjà matchées sur Wikidata, il convient de :

1 - Identifier et établir une liste des espèces référencées qui n'ont pas d'illustration 2 - Pour cette liste, chercher des images libres de droit sur EOL (licence CC-0) 3 - Établir une liste des liens de référence de ces images 4 - Engager un process de correspondance de liens de ces images avec les espèces sur Wikidata 4 bis - Ou les télécharger de EOL pour les verser dans WikiCommons et ensuite les faire référencer par espèce

cecilaki commented 4 years ago

@bybysker tu noteras tes recherches ici ?

itly314 commented 4 years ago

il paraît que les licences CC-BY et CC-BY-SA sont aussi compatibles avec Wiki Commons :

https://commons.wikimedia.org/wiki/Commons:Licensing#Well-known_licenses

Il faudrait cependant attribuer la source, si on utilise ces types d'images

bybysker commented 4 years ago

On dispose au niveau de EOL d'une API qui recence l'ensemble des jeux de donnés provenant des partenaires de EOL, qui participent justement à la complétion de la base de données EOL. L'idée est donc de :

Pour ce faire, le dataset s'avérant le plus est celui de WikiMedia

cecilaki commented 4 years ago

La liste des espèces Wikidata avec l'ID Cites à qui il manque une photo :
12590 espèces sont actuellement sans image

bybysker commented 4 years ago

@bybysker tu noteras tes recherches ici ?

Oui oui, ca marche

pzwsk commented 4 years ago

Super, c'est intéressant de démarrer avec les espèces sans images, mais je ne suis pas non plus certain de la qualité de illustrations déjà disponibles.

On Thu, Oct 10, 2019 at 5:40 PM AGWU Elbby notifications@github.com wrote:

@bybysker https://github.com/bybysker tu noteras tes recherches ici ?

Oui oui, ca marche

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=AASEVRZ5XC2R3BPT2CDV3R3QN5EITA5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEA4Z3PQ#issuecomment-540646846, or unsubscribe https://github.com/notifications/unsubscribe-auth/AASEVR3SF2V6WX5WXVARIMLQN5EITANCNFSM4IWAYSTQ .

cecilaki commented 4 years ago

En effet. Et comment tu mesurerais la qualité des illustrations disponibles ?

itly314 commented 4 years ago

@pzwsk, hmm, pour contrôler les images déjà existantes, serions nous capables de les distinguer de ceux qu'on aura importer de EOL?

Et comment saurait-on que les images de EOL serons de meilleur qualité ?

Je pense que la bonne approche serait

  1. D'abord importer des images pour les espèces qui n'ont en pas
  2. Ensuite, chercher des images supplémentaires pour les espèces qui en avait déjà
  3. Faire une vérification globale de la qualité des images pour toutes les espèces qui auront maintenant des images. Pour cette étape, nous serons probablement amené à s'appuyer sur des techniques de machine learning .. ou bien de payer des gens sur Mechanical Turk ;-p

De toute façon, pour garder des traces, et pour retrouver des sous-ensembles qu'on souhaiterait revoir ultérieurement, nous pouvons envisager un CSV dont on met à jour la version dans Github

pzwsk commented 4 years ago

Oui, ça me parait une bonne approche.

Et le point 3, on peut le réserver pour la prochaine saison de Data for Good ;)

On Thu, Oct 10, 2019 at 8:17 PM itly314 notifications@github.com wrote:

@pzwsk https://github.com/pzwsk, hmm, pour contrôler les images déjà existantes, serions nous capables de les distinguer qu'on aura importer de EOL?

Et comment serait-on que les images de EOL serons de meilleurs qualité ?

Je pense que la bonne approche serait

  1. D'abord importer des images pour les espèces qui n'ont en pas
  2. Ensuite, chercher des images supplémentaires pour les espèces qui en avait déjà
  3. Faire une vérification globale de la qualité des images pour toutes les espèces qui auront maintenant des images. Pour cette étape, nous serons probablement amené à s'appuyer sur des techniques de machine learning .. ou bien de payer des gens sur Mechanical Turk ;-p

De toute façon, pour garder des traces, et pour retrouver des sous-ensembles qu'on souhaiterait revoir ultérieurement, nous pouvons envisager un CSV dont on met à jour la version dans Github

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=AASEVR3YC52VDG7DV7YCMNTQN5WVNA5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEA5JCFA#issuecomment-540709140, or unsubscribe https://github.com/notifications/unsubscribe-auth/AASEVRY26TMJPMSYIVDQFR3QN5WVNANCNFSM4IWAYSTQ .

itly314 commented 4 years ago

@bybysker, j'ai regarder la doc pour les Data Services de EoL

EoL data services https://eol.org/docs/what-is-eol/data-services/classic-apis

Il semble relativement simple d'obtenir du JSON.

Cependant, il va falloir

  1. passer une requête par espèce qu'on recherche
  2. analyser les résultats pour extraire la bonne ID EOL pour chaque espèce
  3. avec ces IDs passer une nouvelle série de requêtes pour trouver des éventuelles images

J'imagine que Python serait le bon outil pour faire tout ça. Peut-on créer un Jupyter Notebook partagé quelque part pour travailler ces points ensembles ?

bybysker commented 4 years ago

Ca semble intéressant les API . Surtout dans la mesure où ca centraliserait tous les datasets. Mais, sur le site, il y a juste un sample . Mais pas l'API complète . Si ?

itly314 commented 4 years ago

Justement, je crois que l'API est relativement simple et consiste en ces trois URLs qui sont exposés sur la page mentionnée dessus (Data Services). Pour faire des requêtes, on modifie les paramètres dans l'URL et on obtient du JSON. Il n'y a pas besoin d'une authentification puisque la base est ouverte.

bybysker commented 4 years ago

Okay je vois ... Je verrai ça ce week-end !

itly314 commented 4 years ago

Super ! Je me demande si on peut télécharger tous les contenus textuelles de EoL ... on pourrait ensuite essayer de faire un alignement entre les ID EoL et les ID Wikidata en utilisant, par exemple, l'outil OpenRefine

https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail Virus-free. www.avast.com https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail <#DAB4FAD8-2DD7-40BB-A1B8-4E2AA1F9FDF2>

Le ven. 18 oct. 2019 à 11:05, AGWU Elbby notifications@github.com a écrit :

Okay je vois ... Je verrai ça ce week-end !

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=ANFGAYKXISLSOWKMMPFCQWLQPF345A5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBTO3IQ#issuecomment-543616418, or unsubscribe https://github.com/notifications/unsubscribe-auth/ANFGAYJGA257DTDS7QDTO33QPF345ANCNFSM4IWAYSTQ .

pzwsk commented 4 years ago

À explorer mais EOL.org intègre déja plusieurs IDs

Le sam. 19 oct. 2019 à 11:49 AM, itly314 notifications@github.com a écrit :

Super ! Je me demande si on peut télécharger tous les contenus textuelles de EoL ... on pourrait ensuite essayer de faire un alignement entre les ID EoL et les ID Wikidata en utilisant, par exemple, l'outil OpenRefine

< https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail

Virus-free. www.avast.com < https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail

<#DAB4FAD8-2DD7-40BB-A1B8-4E2AA1F9FDF2>

Le ven. 18 oct. 2019 à 11:05, AGWU Elbby notifications@github.com a écrit :

Okay je vois ... Je verrai ça ce week-end !

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub < https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=ANFGAYKXISLSOWKMMPFCQWLQPF345A5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBTO3IQ#issuecomment-543616418 , or unsubscribe < https://github.com/notifications/unsubscribe-auth/ANFGAYJGA257DTDS7QDTO33QPF345ANCNFSM4IWAYSTQ

.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=AASEVR3KTNAJVP47VSIBHSDQPLQ3TA5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBXLT3A#issuecomment-544127468, or unsubscribe https://github.com/notifications/unsubscribe-auth/AASEVR6CPV6GQLWTFOM7L43QPLQ3TANCNFSM4IWAYSTQ .

itly314 commented 4 years ago

Mon idée n'avait pas pour but de enregistrer les résultats d'un tel alignement. Je la vois plutôt comme une étape dans la recherche des images.

C.a.d. on doit d'abord trouver une correspondance entre les taxa en Wikidata et les taxa en EoL, et ensuite, à partir de la liste qui en résulte, extraire les images pertinentes de EoL et les associer aux taxa en Wikidata

On peut le faire en code, en faisant des itérations sur chaque taxa dont on cherche une illustration, ou bien peut-on le faire avec OpenRefine (sans forcément télécharger les résultats dans Wikidata) ?

En espérant que je suis arriver à m'exprimer plus clairement !

Le dim. 20 oct. 2019 à 11:54, Pierre Chrzanowski notifications@github.com a écrit :

À explorer mais EOL.org intègre déja plusieurs IDs

Le sam. 19 oct. 2019 à 11:49 AM, itly314 notifications@github.com a écrit :

Super ! Je me demande si on peut télécharger tous les contenus textuelles de EoL ... on pourrait ensuite essayer de faire un alignement entre les ID EoL et les ID Wikidata en utilisant, par exemple, l'outil OpenRefine

<

https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail

Virus-free. www.avast.com <

https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail

<#DAB4FAD8-2DD7-40BB-A1B8-4E2AA1F9FDF2>

Le ven. 18 oct. 2019 à 11:05, AGWU Elbby notifications@github.com a écrit :

Okay je vois ... Je verrai ça ce week-end !

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub <

https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=ANFGAYKXISLSOWKMMPFCQWLQPF345A5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBTO3IQ#issuecomment-543616418

, or unsubscribe <

https://github.com/notifications/unsubscribe-auth/ANFGAYJGA257DTDS7QDTO33QPF345ANCNFSM4IWAYSTQ

.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub < https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=AASEVR3KTNAJVP47VSIBHSDQPLQ3TA5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBXLT3A#issuecomment-544127468 , or unsubscribe < https://github.com/notifications/unsubscribe-auth/AASEVR6CPV6GQLWTFOM7L43QPLQ3TANCNFSM4IWAYSTQ

.

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=ANFGAYIA3JXMGZHYT6UXA6TQPQTDZA5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBYGPEA#issuecomment-544237456, or unsubscribe https://github.com/notifications/unsubscribe-auth/ANFGAYIBXMD6CA7O2KBSWKDQPQTDZANCNFSM4IWAYSTQ .

pzwsk commented 4 years ago

Oui d'où ma suggestion : utiliser les ids déjà disponibles dans eol et wikidata pour faire la correspondance si c'est possible. Par exemple l id uicn est dans les 2 bases pour pas mal d especes il me semble.

On peut utiliser le nom scientifique sinon.

Le dim. 20 oct. 2019 à 1:47 PM, itly314 notifications@github.com a écrit :

Mon idée n'avait pas pour but de enregistrer les résultats d'un tel alignement. Je la vois plutôt comme une étape dans la recherche des images.

C.a.d. on doit d'abord trouver une correspondance entre les taxa en Wikidata et les taxa en EoL, et ensuite, à partir de la liste qui en résulte, extraire les images pertinentes de EoL et les associer aux taxa en Wikidata

On peut le faire en code, en faisant des itérations sur chaque taxa dont on cherche une illustration, ou bien peut-on le faire avec OpenRefine (sans forcément télécharger les résultats dans Wikidata) ?

En espérant que je suis arriver à m'exprimer plus clairement !

Le dim. 20 oct. 2019 à 11:54, Pierre Chrzanowski <notifications@github.com

a écrit :

À explorer mais EOL.org intègre déja plusieurs IDs

Le sam. 19 oct. 2019 à 11:49 AM, itly314 notifications@github.com a écrit :

Super ! Je me demande si on peut télécharger tous les contenus textuelles de EoL ... on pourrait ensuite essayer de faire un alignement entre les ID EoL et les ID Wikidata en utilisant, par exemple, l'outil OpenRefine

<

https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail

Virus-free. www.avast.com <

https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=webmail

<#DAB4FAD8-2DD7-40BB-A1B8-4E2AA1F9FDF2>

Le ven. 18 oct. 2019 à 11:05, AGWU Elbby notifications@github.com a écrit :

Okay je vois ... Je verrai ça ce week-end !

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub <

https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=ANFGAYKXISLSOWKMMPFCQWLQPF345A5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBTO3IQ#issuecomment-543616418

, or unsubscribe <

https://github.com/notifications/unsubscribe-auth/ANFGAYJGA257DTDS7QDTO33QPF345ANCNFSM4IWAYSTQ

.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <

https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=AASEVR3KTNAJVP47VSIBHSDQPLQ3TA5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBXLT3A#issuecomment-544127468

, or unsubscribe <

https://github.com/notifications/unsubscribe-auth/AASEVR6CPV6GQLWTFOM7L43QPLQ3TANCNFSM4IWAYSTQ

.

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub < https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=ANFGAYIA3JXMGZHYT6UXA6TQPQTDZA5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBYGPEA#issuecomment-544237456 , or unsubscribe < https://github.com/notifications/unsubscribe-auth/ANFGAYIBXMD6CA7O2KBSWKDQPQTDZANCNFSM4IWAYSTQ

.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/okfnfr/CITES-biodiversity/issues/4?email_source=notifications&email_token=AASEVR4I5VCEOAACJPQ2LV3QPRHOTA5CNFSM4IWAYST2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEBYJLDI#issuecomment-544249229, or unsubscribe https://github.com/notifications/unsubscribe-auth/AASEVR2EU2SZSUHOZHTPOB3QPRHOTANCNFSM4IWAYSTQ .

bybysker commented 4 years ago

Apparemment pour pouvoir requéter en toute tranquillité l' API de EOL, il faudrait avoir les droits. J'ai fait une demande par mail comme il est stipulé sur la page: https://github.com/EOL/eol_website/blob/master/doc/api.md

En espérant qu'il réponde tôt ...

itly314 commented 4 years ago

@pzwsk, je comprends maintenant. C'est une bonne idée.

Oui d'où ma suggestion : utiliser les ids déjà disponibles dans eol et wikidata pour faire la correspondance si c'est possible. Par exemple l id uicn est dans les 2 bases pour pas mal d especes il me semble. On peut utiliser le nom scientifique sinon.

bybysker commented 4 years ago

Scientific Name --> Search API : Take Id in results Id --> Pages API : Get dataObjectId and mediaURL

TODO : Find a way to directly address DataObject API

cecilaki commented 4 years ago

Question : que faire des images EOL qui pourraient compléter l'illustration des espèces ?