Encodage des fichiers .csv : soucis d'import dans PostgreSQL

garaud commented 4 years ago

Bonjour !

En prenant l'ensemble des fichiers csv par département présents sur http://data.cquest.org/geo_sirene/v2019/last/dep/, je me suis fait mordre par PostgreSQL avec un :

value too long for type character varying(26)

En effet, j'ai repris la définition des variables présentes dans les fichiers CSV https://www.sirene.fr/sirene/public/static/liste-variables en créant un table PostgreSQL avec la bonne longueur des différents champs. Par exemple :

distributionSpecialeEtablissement : https://www.sirene.fr/sirene/public/variable/distributionSpecialeEtablissement type TEXTE longueur 26
complementAdresseEtablissement : https://www.sirene.fr/sirene/public/variable/complementAdresseEtablissement type TEXTE, longueur 38

Puis en faisant un bête COPY CSV TO, j'ai eu des chaînes parfois plus longues. Deux exemples :

Département 33, POLYCLI BX NORD MED VASCULAIRE NÂ°15A33 en tant que valeur de la variable complementAdresseEtablissement qui a donc ici une longueur 39 pour 38 attendue
Département 13, CENTRAIX ET NÂ°2 AV DU 8 MA pour la valeur de la variable distributionSpecialeEtablissement

Je me demande si dans le filtre ou le découpage d'entités par département, y'aura pas un soucis d'encodage qui se glisse.

Pour l'instant, j'ai augmenté la taille de mes champs.

Merci, Damien G.

garaud commented 4 years ago

Grmbl, j'ai aussi des p'tits malheureux Â¿ qui trainent dans certains champs.

garaud commented 4 years ago

Mea culpa, y'en a dans les données source aussi...

Pour le SIREN 212901102, dans les résultats de recherche de https://www.sirene.fr/sirene/public/recherche j'ai des trucs comme LOTISSEMENT N¿2

garaud commented 4 years ago

J'ai l'impression que le script de geocodage geocode.py, quand il est appelé avec plus de deux arguments à la ligne de commande, ce qui est le cas pour v2019/batch.sh n'a pas le bon encoding à la lecture du fichier .csv https://github.com/cquest/geocodage-spd/blob/master/insee-sirene/geocode.py#L71

    sirene_csv = csv.reader(open(sys.argv[1], 'r', encoding='iso8859-1'),
                            delimiter=',')

puisque les fichiers sont déjà (et enfin) publiés en utf-8.

cquest / geocodage-spd

Encodage des fichiers .csv : soucis d'import dans PostgreSQL #13