etalab / noms-de-domaine-organismes-secteur-public

Liste de noms de domaine d'organismes publics
Other
23 stars 15 forks source link

Removing bad domains. #14

Closed JulienPalard closed 3 years ago

JulienPalard commented 3 years ago

Globalement la procédure c'est :

rm domaines-organismes-publics.txt
python scripts/consolidate.py sources/*.txt

± les problèmes aiohttp (ça va me faire ouvrir qq issues/PR chez aiohttp je pense...) ± les serveurs qui me rate-limit

Mais en repassant deux-trois fois consolidate.py (en laissant du temps entre chaque pour me faire oublier du rate-limiting) ça finit par se stabiliser à cette liste.

On perd bien sûr le confortable diff domaines-organismes-publics.txt <(sort sources/*.txt), maintenant on a les "bons" domaines à la racine, et tous les domaines dans "sources/".

Comme le README.md l'indique, à coup de comm, on peut aisément lister les domaines à problème, mais c'est un tout autre projet.

bzg commented 3 years ago

Génial, merci beaucoup.