etalab / transport-qualite-des-donnees

2 stars 4 forks source link

Erreurs sur la ressource NeTEx "Réseau national TER SNCF" #4

Open thbar opened 2 years ago

thbar commented 2 years ago

J'ai été tester le validateur NeTEx de DATA4PT sur plusieurs ressources, dont le "Réseau national TER SNCF":

https://transport.data.gouv.fr/datasets/horaires-des-lignes-ter-sncf/

J'obtiens un retour qui mérite qu'on s'y attarde:

❯ docker run -it -m 1GB -v $(pwd):/greenlight/documents lekojson/greenlight validate -i /greenlight/documents/export-ter-netex-last.zip
Entity: line 174002: parser error : Input is not proper UTF-8, indicate encoding !
Bytes: 0xFF 0x67 0x6C 0x69
                <Street>Rue de l'?glise</Street>
                                 ^
Entity: line 769162: parser error : xmlSAX2Characters: huge text node
                </PointOnRoute>
                ^
Entity: line 769162: parser error : Extra content at the end of the document
                </PointOnRoute>
                ^
2022/06/13 14:22:37 failed to create parse input: failed to read document from memory: Entity: line 769162: parser error : Extra content at the end of the document
thbar commented 2 years ago

La première erreur est un souci d'encodage que je confirme sur l'adresse postale FR:PostalAddress::b2bd44e0-cb0a-11e8-8bfa-f784c1c7c611: le nom de la rue semble encodé en ISO-8859-1 et non en UTF-8.

La deuxième erreur semble disparaître lorsque la première est corrigée.