inbo / natuurpunt-natagora-checklist

Waarnemingen.be / observations.be - List of species observed in Belgium
MIT License
0 stars 0 forks source link

Export files do not use UTF-8 encodings #5

Closed peterdesmet closed 1 day ago

peterdesmet commented 4 months ago

The datasetName is:

Waarnemingen.be /�observations.be�- List of species observed in Belgium

Is it possible to replace this value in the SQL with regular spaces?

And some scientificName have:

Epichlo� baconii

This seems to be caused by the fact that the data has the ISO-8859-1 encoding rather than the UTF-8 encoding. When exporting the csv file from the database, please define the encoding as UTF-8.

peterdesmet commented 3 months ago

Epichloë baconii is now written correctly, but the datasetName still has characters around observations.be that are not spaces. Notice the dots (for spaces) vs the no-dots around observations.be. I can correct this manually, but would be good to resolve this at the source:

Screenshot 2024-08-02 at 14 32 31
JuulDeWitte commented 2 days ago

Ik krijg de achterliggende oorzaak niet gevonden. Mogelijks dus best om nu de manuele optie te kiezen?

Het lukt me ook niet de non-breaking spaces te vervangen door gewone spaces in Notepad++. Ik probeer straks nog even met een hex-editor (van zodra ik hier de machtiging krijg die te installeren).

image

peterdesmet commented 2 days ago

@JuulDeWitte ik neem aan dat de titel van de dataset ("Waarnemingen.be / ...") wordt gedefinieerd in de SQL view. Daar zijn waarschijnlijk de speciale characters ingevoegd (misschien door shift + spatie te typen). Ik neem aan dat je het kan oplossen het opnieuw te typen in de SQL view.

JuulDeWitte commented 2 days ago

Zou nu hopelijk (!) opgelost moeten zijn.

peterdesmet commented 1 day ago

De vreemde spaties zijn inderdaad verdwenen. De bestanden leken geen UTF-8, maar dat heb ik kunnen aanpassen.