etalab / noms-de-domaine-organismes-secteur-public

Liste de noms de domaine d'organismes publics
Other
23 stars 15 forks source link

sources de données cf madada #53

Open Erwan-le-Gall opened 9 months ago

Erwan-le-Gall commented 9 months ago

https://madada.fr/body/list/all sources de données :

JulienPalard commented 9 months ago

Merci pour les liens.

Je viens d'essayer avec dada-france-authorities j'ai appris trois choses :

Mon test :

import csv
from pathlib import Path

with open("french-authorities.csv", encoding="cp1252") as f:
    reader = csv.reader(f)
    dada_urls = [row[4] for row in reader][1:]
    dada_domains = {url.split("/")[2] for url in dada_urls if "://" in url}

with open("/home/mdk/src/etalab/noms-de-domaine-organismes-publics/domains.csv", encoding="UTF-8") as f:
    reader = csv.reader(f)
    known_domains = set([row[0] for row in reader][1:])

print(*(dada_domains - known_domains), sep="\n")

Résultats surprenants :

il y a aussi quelques domaines qu'on ne peut pas importer (cananblog.com, wixsite.com, ...) vu qu'on est plus orientés noms de domaines que page.

Ça laisse beaucoup de choses à importer c'est cool.