robert-koch-institut / SARS-CoV-2-Infektionen_in_Deutschland_Archiv

Der vorliegende Datansatz enthält umfassende Informationen zu SARS-CoV-2-Infektionen in Deutschland, die gemäß dem Infektionsschutzgesetze (IfSG) von den Gesundheitsämtern an das Robert Koch-Institut (RKI) gemeldet wurden. Die Daten umfassen Informationen zur Anzahl der bestätigten Fälle, Todesfälle und Genesungen.
https://doi.org/10.5281/zenodo.4681153
Creative Commons Attribution 4.0 International
75 stars 6 forks source link

Umstellung des Respositoriums / Restructuring of the repository #22

Closed HannesWuensche closed 1 year ago

HannesWuensche commented 2 years ago

Liebe Alle,

im Issue #10 wurde bereits besprochen, dass die Größe des Repositoriums über die Zeit stark zugenommen hat. Eine der Ursachen dafür ist die doppelte Bereitstellung der Daten: Im Archiv, als auch in der Historie der Aktuell_Deutschland_SarsCov2_Infektionen.csv.

Da die Größe auch uns zu schaffen macht und wir über Git LFS nur ein begrenztes Volumen an Traffic anbieten können, habe wir uns dazu entschlossen eine Umstrukturierung vorzunehmen:

In beiden Repositorien sind damit täglich die neuen Dateien enthalten: Im Archiv-Repositorum als datierte Datei JJJJ-MM-DD_Deutschland_SarsCov2_Infektionen.csv. Im Repositorium „SARS-CoV-2-Infektionen_in_Deutschland“ als täglich überschriebene Aktuell_Deutschland_SarsCov2_Infektionen.csv.

Achtung, im Vergleich zum derzeitigen Repositorium ändert sich der Branch von master zu main und der Unterstrich im Titel wird zum Bindestrich. Die Umstellung ist für den 30. August geplant, wenn bis dahin keine grundlegenden Probleme durch die Community geäußert werden. Wir bitten alle User:innen die Information weiterzugeben und laden zum Feedback ein.

----English Version---- Dear All,

In Issue #10 we already discussed that the size of the repository has increased significantly over time. One of the reasons for this is the redundant provision of data: In the archive, as well as in the history of Aktuell_Deutschland_SarsCov2_Infektionen.csv.

Since the size is also a problem for us and we can only offer a limited volume of traffic via Git LFS, we decided to restructure the repository:

In both repositories the new files are provided on a daily basis: In the archive repository as dated file JJJJ-MM-DD_Deutschland_SarsCov2_Infektionen.csv. In the repository "SARS-CoV-2-Infektionen_in_Deutschland" as daily overwritten Aktuell_Deutschland_SarsCov2_Infektionen.csv.

Note, compared to the current repository, the branch changes from master to main and the underscore in the title becomes a hyphen. The restructuring is planned for August 30, if no fundamental problems are expressed by the community until then. We ask all users to pass on the information and invite for feedback.

Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data

HannesWuensche commented 2 years ago

Liebe Alle,

kurzer Reminder: Die Umstellung des Repositoriums ist für morgen geplant. Bitte passt eure Pipelines an.

----English Version---- Dear All,

short reminder: The restructuring of the repository is due tomorrow. Please adjust your pipelines.

Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data

4nnabeh commented 2 years ago

Moin Hannes, im Moment gibt es ja nun ein Repo mit aktueller Datei und Archiv (https://github.com/robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland) sowie das Repo mit Bindestrich statt Unterstrich und nur der aktuellen Datei (https://github.com/robert-koch-institut/SARS-CoV-2-Infektionen_in_Deutschland). Beide enthalten die aktuelle Datei namens Aktuell_Deutschland_SarsCov2_Infektionen.csv, aber nur das erstere Repo enthält auch ein Archiv, wenn ich das richtig sehe. Wird die Struktur bis auf Weiteres so bleiben? Danke vorab und beste Grüße.

HannesWuensche commented 2 years ago

Hallo Anna,

die oben angekündigte Umstellung ist nach wie vor geplant. Leider laufen gerade so viele Aufgaben auf, dass ich noch keine Zeit gefunden habe die Umstellung umzusetzen. Ist aber für diese Woche geplant.

Die Aktuell_Deutschland_SarsCov2_Infektionen.csv wird dann nur noch im https://github.com/robert-koch-institut/SARS-CoV-2-Infektionen_in_Deutschland enthalten sein.

Beste Grüße @HannesWuensche

4nnabeh commented 2 years ago

Alles klar, dann beäugen wir weiterhin wachsam, was da kommt. Vielen Dank für die schnelle Rückmeldung!

untergeekDE commented 2 years ago

Gerade gesehen, dass die Umstellung jetzt erfolgt ist... einmal durchatmen, alles gut gegangen! :)

Werden das Archiv-Repo und das Aktuell-Repo zur gleichen Zeit aktualisiert - oder gibt es gute Gründe, für die tagesaktuellen Zahlen auf das neue "Bindestrichrepo" umzusteigen?

rgerhards commented 2 years ago

@HannesWuensche

Der Name des Repositoriums wird sich zu „SARS-CoV-2-Infektionen_in_Deutschland_Archiv“ ändern.

Sollte mMn unbedingt gemacht werden, damit man den Umstellungsbedarf direkt erkennt. Außerdem sind die optisch identischen aktuellen Namen eine große Fehlerquelle.

Ich hatte heute früh das Fehlen der '*Aktuell`-CSV im Hauptverzeichnis bemerk und Fehler gesucht. Dabei sind mir Umstellungen direkt eingefallen.

Habe RKI Github Präsenz besucht, bin - unbemerkt - in das neue Bindestrich-Repo gestolpert. In der README stand aber noch nichts zu der Änderung, da also nichts gefunden. Dann die ganze Reihe Fehleranalyse bis hin zu "github" benimmt sich merkwürdig, dann in Verzweiflung die repo URLs geprüft. Erst als ich die mit fc verglichen habe ist mir aufgefallen, dass zwei existieren ;-) Und erst dann habe ich den Thread hier entdeckt.

Selbst nachdem es mir klar war, war das Arbeiten mit "Was ist Unterstrich, was ist Bindestrich" schwierig. Das Wort "Archiv" im Repo-Namen wäre das sehr klärend. ;-)

chesselingfm commented 2 years ago

Lieber Hannes Wünsche,

vielen Dank nochmal für die tolle Informationspoltik. Bei uns (NDR) sollte es laufen.

Beste Grüße Claus

Von: HannesWuensche @.> Gesendet: Mittwoch, 31. August 2022 09:54 An: robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland @.> Cc: Subscribed @.***> Betreff: Re: [robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland] Umstellung des Respositoriums / Restructuring of the repository (Issue #22)

Diese E-Mail wurde über das öffentliche Internet versendet. Achten Sie daher besonders auf den Absender und handeln sie umsichtig mit den angehängten Dateien und Links.

Liebe Alle,

kurzer Reminder: Die Umstellung des Repositoriums ist für morgen geplant. Bitte passt eure Pipelines an.

----English Version---- Dear All,

short reminder: The restructuring of the repository is due tomorrow. Please adjust your pipelines.

Mit besten Grüßen @HannesWuenschehttps://github.com/HannesWuensche für das Team RKI | Open Data

— Reply to this email directly, view it on GitHubhttps://github.com/robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland/issues/22#issuecomment-1232590818, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AOZ2EINH3HTNYNE3QR7F2S3V34FR7ANCNFSM56DO5LTQ. You are receiving this because you are subscribed to this thread.Message ID: @.**@.>>

HannesWuensche commented 1 year ago

Liebe Alle,

in den letzten Tagen sehen wir einen stark gestiegenen Traffic auf unseren LFS Dateien. Da wir nach wie vor nur ein begrenztes LFS Volumen auf Github haben, möchten wir dem begegnen und eine weitere Umstellung im Repository vornehmen:

Damit wird die stark angewachsene Commit History beseitigt und die Größe des Repositories insgesamt reduziert. Die Umstellung ist zum Ende der Woche geplant, der neue main Branch wir bereits vorher angelegt und befüllt.

Beste Grüße @HannesWuensche für das Team RKI | Open Data

yetzt commented 1 year ago

Bitte keine Zip-Dateien, sondern ein Stream-Entpackbares Format wie gzip, lzma oder brotli benutzen, wie hier bereits vor einem halben Jahr vorgeschlagen. Zip-Dateien müssen zur Dekomprimierung vollständig in den Speicher geladen werden, was uns Datenjournalist:innen das Leben schwer macht.

HannesWuensche commented 1 year ago

Hallo @yetzt,

vielen dank für das Feedback und die Erinnerung.

Um die größtmögliche Interoperabilität/Nutzer:innenfreundlichkeit zu erreichen, würden wir gzip verwenden. Sofern in den nächsten Tagen keine weiteren Einwände aufkommen, werden die Dateien dann als .csv.gz bereitgestellt.

Beste Grüße @HannesWuensche

HannesWuensche commented 1 year ago

Liebe Alle,

nach erneuter Beratung haben wir uns entschieden auf .csv.xz statt auf .csv.gz umstellen.

Die höhere Kompressionsrate und der Umstand, dass wir das Format es bereits im Datensatz der Sequenzdaten nutzen, hat uns noch einmal zu Umdenken gebracht. Wir bitten erneuten Wechsel zu entschuldigen. 🙄

Beste Grüße @HannesWuensche für das Team RKI | Open Data

yetzt commented 1 year ago

Kurze Nachfrage: Passiert das perspektivisch auch für das Repository SARS-CoV-2-Infektionen_in_Deutschland?

HannesWuensche commented 1 year ago

Hallo @yetzt,

da wir im Repository SARS-CoV-2-Infektionen_in_Deutschland nicht Archivieren und daher nur die Diffs erfasst werden, wächst das Repo nicht ansatzweise so schnellt. Derzeit stellt es somit kein Problem dar, entsprechend ist keine Umstellung geplant. Das heißt leider nicht, das wir ein Umstellung für die Zukunft ausschließen können.

Insgesamt wollen wir im nächsten Schritt lieber eine Datenbank mit API anbieten, als weiter die Daten per CSV bereitzustellen.

Beste Grüße @HannesWuensche für das Team RKI | Open Data

yetzt commented 1 year ago

Das ist schade, denn (im Idealfall komprimierte) Rohdaten in simplen, wohlefinierten Formaten ohne API-Overhead sind für uns am einfachsten zu handhaben. Für das CSV benötigt meine Software etwa 30 Sekunden, komprimiert mit gzip unter 5 (i/o und transfert sind die Flaschenhälse, weshalb es mit Kompression schneller geht).

Vielen Dank für die Rückmeldung!