Closed villesinternet closed 2 years ago
Précision : je ne mets que les domaines uniques obtenus (sans scheme, sans path, et en dédoublonnant les domaines/urls utilisés par plusieurs établissements).
Pour info dans la chaîne de traitement nous avons : 8468 établissements scolaires publics avec une url de site web dont 7855 urls uniques donnant 6436 domaines uniques (sans scheme, sans path)
Le script check.py a permis de dédoublonner quelques cas "attendus" :
Je propose d'utiliser un cas d'usage d'ajout de domaines à partir d'une source pour penser la documentation de l'import : méthode et critère d'entrée dans le corpus.
Je décris en français les étapes de la méthode "artisanale" pour que l'on puisse commenter ce qui est à conserver, ce qui est à "oublier" et être en mesure d'automatiser (script) ou de documenter (dataset de description des sources) sur la base de ce cas d'usage... et ainsi être moins bavard (pardon).
Type d'établissements publics : les établissements de l'enseignement public présentés dans l'annuaire de l'éducation. Url du jeu de donnée : https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/information/ Licence : Licence Ouverte v2.0 (Etalab) D'autres métadonnées du jeu de données peuvent être utiles (et récupérables sur la seule base de l'URL du jeu de donnée) : fréquence d'actualisation, date de dernière actualisation. nombre d'enregistrements...
Le jeu de donnée complet ne peut pas être utilisé car il y a des établissements scolaires privés (zone grise : on pourrait trancher en gardant les écoles privées mais conventionnées...) Méthode de sélection : champ
Statut_public_prive="Public"
Champ contenant l'url :Web
Champs pouvant être utiles pour pivoter avec d'autres métadonnées :siren_siret
(SIRET de l'établissement),identifiant_de_l_etablissement
(UAI (RNE) de l'établissement : id interne à l'annuaire de l'éducation),code_commune
(code officiel géographique Insee de la commune de l'établissement)Automatisation possible de l'extraction avec l'API de l'annuaire de l'éducation : https://api.gouv.fr/documentation/api-annuaire-education Exemple curl :
Je crée une PR pour ajouter le fichier source obtenu.