micb25 / RKI_COVID19_DATA

Archiv von Datenbank-Dumps des RKI-COVID19-Dashboards mit täglicher automatisierter Aktualisierung.
https://corona.rki.de
13 stars 2 forks source link

Dateien vom 11.04.2020 und 04./05.05.2020 falsch formatiert? #7

Closed fnogatz closed 3 years ago

fnogatz commented 3 years ago

Danke für die umfangreiche Sammlung der RKI-Daten! Natürlich unterscheiden sie sich hin und wieder in Details – Grüße gehen an dieser Stelle raus an alle BOMs, CRLFs und dann doch mal irgendwo hineingemogelte UNIX-Timestamps! Insgesamt aber Dinge, die sich irgendwie noch gut händeln lassen, sodass ich immer gemeint hätte, dass das Vorhalten der Original-Dokumente im Repo wichtiger ist als die Mehrarbeit in der programmseitigen Behandlung.

Einzig bei der Datei für den 11.04.2020 tendiere ich zu einer anderen Sicht. Die ist einfach in zu vielen Aspekten "kaputt". Einmal der Vergleich zum vorigen und nächsten Tag:

> head -n3 RKI_COVID19_2020-04-{10,11,12}.csv
==> RKI_COVID19_2020-04-10.csv <==
IdBundesland,Bundesland,Landkreis,Altersgruppe,Geschlecht,AnzahlFall,AnzahlTodesfall,FID,Meldedatum,IdLandkreis,Datenstand,NeuerFall,NeuerTodesfall,Refdatum,NeuGenesen,AnzahlGenesen
1,Schleswig-Holstein,LK Pinneberg,A60-A79,W,1,0,1584304,2020-03-30,01056,2020-04-10,0,-9,2020-03-30,0,1
1,Schleswig-Holstein,LK Pinneberg,A60-A79,W,1,0,1584305,2020-03-31,01056,2020-04-10,0,-9,2020-03-29,-9,0

==> RKI_COVID19_2020-04-11.csv <==
"ID","IdBundesland","Bundesland","Landkreis","Altersgruppe","Geschlecht","AnzahlFall","AnzahlTodesfall","ObjectId","Meldedatum","IdLandkreis","Datenstand","NeuerFall","NeuerTodesfall","Refdatum","NeuGenesen","AnzahlGenesen"
1,1.00,"Schleswig-Holstein","SK Neum├╝nster","A15-A34","M",1.00,0.00,1668016.00,05/04/2020,1004.00,11/04/2020,0.00,-9.00,05/04/2020,-9.00,0.00
2,1.00,"Schleswig-Holstein","SK Neum├╝nster","A15-A34","M",1.00,0.00,1668017.00,09/04/2020,1004.00,11/04/2020,0.00,-9.00,09/04/2020,-9.00,0.00

==> RKI_COVID19_2020-04-12.csv <==
IdBundesland,Bundesland,Landkreis,Altersgruppe,Geschlecht,AnzahlFall,AnzahlTodesfall,FID,Meldedatum,Landkreis ID,Datenstand,Neuer Fall,Neuer Todesfall,Referenzdatum,Neu Genesen,Anzahl Genesen
1,Schleswig-Holstein,SK Flensburg,A15-A34,M,1,0,1754998,3/14/2020,01001,04/12/2020,0,-9,3/16/2020,-9,0
1,Schleswig-Holstein,SK Flensburg,A15-A34,M,1,0,1754999,3/19/2020,01001,04/12/2020,0,-9,3/13/2020,0,1

Die Probleme sind also:

Allesamt Dinge, die wir auch programmseitig behandeln könnten und zum Teil an anderer Stelle auch schon machen. Hier kommen nur so viele Sachen zusammen, dass ich vorschlagen würde, einfach eine korrigierte Fassung im Repo zu behalten.

fnogatz commented 3 years ago

Ui, danke für die schnelle Überarbeitung, @micb25! Die Datei vom 11.04.2020 passt nun. Allerdings scheint es für die Datensätze vom 04.05.2020 und 05.05.2020 nochmal das gleiche Problem zu geben. Wobei hier das Datum zwar auch dem deutschen Format folgt, jedoch DD.MM.YYYY statt DD/MM/YYYY. Mit dem abweichenden Datumsformat und CRLF könnte ich gut leben, das falsche Encoding und die Fließkommazahlen sind aber irgendwie lästig :smiley:

Edit: Die Datei vom 05.05.2020 führt zudem die Spalte Meldedatum2 statt Meldedatum...

HrRodan commented 3 years ago

Hallo @fnogatz, ich hatte das Repo vor einiger Zeit geforkt und etwas mit den Daten und dem Repo gearbeitet (rumgespielt ;-) ). Vor kurzem habe ich einen Looper über alle CSVs gebaut und mir sind noch weitere Dumps aufgefallen, bei denen der Datenstand des Inhalts nicht zum Stichtag im Dateiname passt und/oder das Format sehr krumm ist:

2020-04-02 2020-04-11 2020-05-04 2020-05-05 2020-05-09 2020-10-28 2021-01-28 2021-01-30 2021-02-16

In meinem Fork habe ich die Dateien mit Hilfe anderer Quellen korrigiert. Ein Pull Request ist leider nicht mehr möglich, dafür sind die Repos schon zu weit auseinander gelaufen.

Falls du eine Möglichkeit suchst, alle Dumps mit allen Formaten einzulesen, kannst du dir gerne mal meine Quick-and Dirty Lösung anschauen.

Auch hilfreich für mich folgendes Repo, dort findest du auch ein Shell Script, das die meisten Formatprobleme behebt.

micb25 commented 3 years ago

Hallo @HrRodan und @fnogatz, vielen lieben Dank für eure zahlreichen Hinweise! Das hilft wirklich sehr die Qualität zu verbessern. Die gröbsten Probleme, was die Formatierung und falsche Tagesdaten anbelangt, sollten jetzt hoffentlich behoben sein.

fnogatz commented 3 years ago

Super, danke. Danke auch an @HrRodan für die nützlichen Pointer. Von meiner Seite passt das jetzt soweit, sodass ich das Issue mal zumache :)