Open Erwan-le-Gall opened 9 months ago
Merci pour les liens.
Je viens d'essayer avec dada-france-authorities j'ai appris trois choses :
Mon test :
import csv
from pathlib import Path
with open("french-authorities.csv", encoding="cp1252") as f:
reader = csv.reader(f)
dada_urls = [row[4] for row in reader][1:]
dada_domains = {url.split("/")[2] for url in dada_urls if "://" in url}
with open("/home/mdk/src/etalab/noms-de-domaine-organismes-publics/domains.csv", encoding="UTF-8") as f:
reader = csv.reader(f)
known_domains = set([row[0] for row in reader][1:])
print(*(dada_domains - known_domains), sep="\n")
Résultats surprenants :
il y a aussi quelques domaines qu'on ne peut pas importer (cananblog.com, wixsite.com, ...) vu qu'on est plus orientés noms de domaines que page.
Ça laisse beaucoup de choses à importer c'est cool.
https://madada.fr/body/list/all sources de données :