irplab / irpia

0 stars 0 forks source link

Extration de l'éditeur par scraping de la page #143

Closed delahousse closed 2 years ago

delahousse commented 2 years ago

https://metascore.philharmoniedeparis.fr/fr/app/VKv l'éditeur n'est pas reconnu, de nombreuses informations étaient présentes pour le trouver dont l'annotation schema.org

"publisher": {

  | "@type": "Organization",   | "@id": "https://www.wikidata.org/wiki/Q3378907",   | "name": "Cité de la musique - Philharmonie de Paris",   | "url": "https://philharmoniedeparis.fr",   | "sameAs": "https://www.facebook.com/PhilharmoniedeParis;",   | "logo": {   | "@type": "ImageObject",   | "url": "https://philharmoniedeparis.fr/sites/default/files/logo_0.png"

jdpro commented 2 years ago

L'éditeur n'est pas recherché par scraping mais uniquement sur les bases SIREN - ISNI à partir des saisies utilisateurs. L'extraction du champs depuis des métadonnées embarquées dans les pages serait intéressante, malheureusement l'exemple de json-ld que tu donnes n'est jamais trouvé sur les sites des éditeurs ou les sites de ressources pédagogiques.

delahousse commented 2 years ago

sauf à la philharmonie :-)

Jean Delahousse Knowledge Graph, Ontology, IA, Open Data email @. @.> web https://www.jean-delahousse.net/en/ https://www.jean-delahousse.net/en/ mob +33 6 01 22 48 55 skype jean.delahousse

Le sam. 1 oct. 2022 à 17:36, jdpro @.***> a écrit :

L'éditeur n'est pas recherché par scraping mais uniquement sur les bases SIREN - ISNI à partir des saisies utilisateurs. L'extraction du champs depuis des métadonnées embarquées dans les pages serait intéressante, malheureusement l'exemple de json-ld que tu donnes n'est jamais trouvé sur les sites des éditeurs ou les sites de ressources pédagogiques.

— Reply to this email directly, view it on GitHub https://github.com/irplab/irpia/issues/143#issuecomment-1264400445, or unsubscribe https://github.com/notifications/unsubscribe-auth/AA7RS6Z4HCKWGNF2IHQS2QLWBBK7LANCNFSM6AAAAAAQ2OIP6Q . You are receiving this because you authored the thread.Message ID: @.***>