etalab / noms-de-domaine-organismes-secteur-public

Liste de noms de domaine d'organismes publics
Other
22 stars 15 forks source link

Nouvelle source : établissements scolaires publics #31

Closed villesinternet closed 2 years ago

villesinternet commented 2 years ago

Je propose d'utiliser un cas d'usage d'ajout de domaines à partir d'une source pour penser la documentation de l'import : méthode et critère d'entrée dans le corpus.

Je décris en français les étapes de la méthode "artisanale" pour que l'on puisse commenter ce qui est à conserver, ce qui est à "oublier" et être en mesure d'automatiser (script) ou de documenter (dataset de description des sources) sur la base de ce cas d'usage... et ainsi être moins bavard (pardon).

Type d'établissements publics : les établissements de l'enseignement public présentés dans l'annuaire de l'éducation. Url du jeu de donnée : https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/information/ Licence : Licence Ouverte v2.0 (Etalab) D'autres métadonnées du jeu de données peuvent être utiles (et récupérables sur la seule base de l'URL du jeu de donnée) : fréquence d'actualisation, date de dernière actualisation. nombre d'enregistrements...

Le jeu de donnée complet ne peut pas être utilisé car il y a des établissements scolaires privés (zone grise : on pourrait trancher en gardant les écoles privées mais conventionnées...) Méthode de sélection : champ Statut_public_prive="Public" Champ contenant l'url : Web Champs pouvant être utiles pour pivoter avec d'autres métadonnées : siren_siret (SIRET de l'établissement), identifiant_de_l_etablissement (UAI (RNE) de l'établissement : id interne à l'annuaire de l'éducation), code_commune (code officiel géographique Insee de la commune de l'établissement)

Automatisation possible de l'extraction avec l'API de l'annuaire de l'éducation : https://api.gouv.fr/documentation/api-annuaire-education Exemple curl :

curl -X 'GET' \
  'https://data.education.gouv.fr/api/v2/catalog/datasets/fr-en-annuaire-education/records?select=web%2Ccode_commune%2Cidentifiant_de_l_etablissement%2Csiren_siret&where=statut_public_prive%3D%22Public%22%20and%20web%20is%20not%20null&limit=10&offset=0' \
  -H 'accept: application/json'

Je crée une PR pour ajouter le fichier source obtenu.

villesinternet commented 2 years ago

Précision : je ne mets que les domaines uniques obtenus (sans scheme, sans path, et en dédoublonnant les domaines/urls utilisés par plusieurs établissements).

Pour info dans la chaîne de traitement nous avons : 8468 établissements scolaires publics avec une url de site web dont 7855 urls uniques donnant 6436 domaines uniques (sans scheme, sans path)

villesinternet commented 2 years ago

Le script check.py a permis de dédoublonner quelques cas "attendus" :