robert-koch-institut / SARS-CoV-2-Sequenzdaten_aus_Deutschland

Ein zentraler Bestandteil einer erfolgreichen Erregersurveillance ist das Verständnis der Verbreitung eines Erregers sowie seiner pathogenen Eigenschaften. Hierbei stellt das Wissen über das Erregergenom eine wichtige Informationsquelle dar. So erlaubt der Nachweis von Mutationen im Genom eines Erregers, Verwandtschaftsbeziehungen zu rekonstruie...
https://robert-koch-institut.github.io/SARS-CoV-2-Sequenzdaten_aus_Deutschland/
Creative Commons Attribution 4.0 International
67 stars 7 forks source link

Keine bzw. unvollständige tägliche Updates #15

Closed icestorm972 closed 2 years ago

icestorm972 commented 2 years ago

Hi, zur Info: SARS-CoV-2-Sequenzdaten_Deutschland.csv.xz bzw *.fasta.xz sind seit Stand 2022-02-18 nicht mehr aktualisiert worden, während Entwicklungslinien weiter Updates erhalten hatte.

lenaschimmel commented 2 years ago

Eventuell ist das Problem nun behoben, oder zumimdest ein Workaround vorhanden. Kurz nach dem Eröffnen des Issues kam ein commit mit 14963 neuen Zeilen in der CSV-Datei.

icestorm972 commented 2 years ago

Danke! :-)

lenaschimmel commented 2 years ago

Ich bin ja hier auch nur Beoachterin / Nutzerin und kein Teil des RKI, daher war mein Kommentar gestern auch nur eine Art Vermutung oder Beobachtung.

Zumindest kam heute früh gar kein Update mehr, nicht mal die "halben" Updates die es in den Tage davor gab.

@icestorm972 könntest du dieses Issue nochmal öffnen? Ansonsten müsste ich ggf. ein neues erstellen.

cuehs commented 2 years ago

Hallo,

ich habe grade unseren internen Datenstand gegen den hier Publizierten verglichen. Diese sind mit dem Stand heute identisch. Ich beobachte die Lage und würde das Ticket ggf. morgen wieder schließen.

Danke

icestorm972 commented 2 years ago

Update Problem scheint weiter zu bestehen?

"Update 2022-02-24" heute morgen betraf wieder nur "SARS-CoV-2-Entwicklungslinien_Deutschland" aber die beiden "SARS-CoV-2-Sequenzdaten_Deutschland" sind noch auf altem Stand (2022-02-22)

lenaschimmel commented 2 years ago

Um eine bessere Übersicht zu haben, ob die Updates gerade bzw. in den letzten Tagen funktionieren, habe ich diese Auswertung über die letzten ca. 30 Tage hier gemacht. Die Grafik aktualisiert sich automatisch alle 2 Stunden und enthält die Zeitpunkte aller Commits, die die jeweilige Datei aktualisieren, also ggf. auch mehrere pro Tag.

Commit Plot

Vielleicht hilt euch das ja auch beim Einschätzen der Lage?

PS: Ich hoffe, es kommt nicht irgendwie anklagend / kontrollierend rüber, dass ich diese Auswertung gebastelt habe. Da ich inzwischen täglich Fragen zur Aktualität der Daten bekomme, habe ich viel zu viel Zeit damit verbracht, von Hand die Commit-Logs durchzugehen und wollte in erster Linie den Prozess vereinfachen.

rgerhards commented 2 years ago

Ich habe den Verdacht, dass es auch mit den fehlenden Tags (https://github.com/robert-koch-institut/SARS-CoV-2-Sequenzdaten_aus_Deutschland/issues/17) zusammen hängt. Gibt es evtl. einen update-Lauf, der tagged und auf github hochlädt - und aus irgend einem Grund nicht immer (durch-)läuft?

HannesWuensche commented 2 years ago

Liebe Alle,

leider sind unsere Verarbeitungsprozesse derzeit etwas instabil. Daher können wir momentan keine täglichen Updates aller Dateien garantieren. Wir sind uns des Problems bewusst und versuchen schnellstmöglich Abhilfe zu schaffen. Bis dahin bitten wir die teilweisen Aussetzer zu entschuldigen.

@rgerhards, es ist genau anders herum: Wenn keine neuen Daten über automatisierte Pipeline kommen, gibt es auch keinen Tag. Wenn wir dann manuell eingreifen, kann es sein, dass wir das Tagen vergessen, bzw die Datenstände durcheinander geraten.

Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data

lenaschimmel commented 2 years ago

Gibt es schon eine Einschätzung, ob/wann sich das wieder bessern sollte? Ich frage nicht aus purer Ungeduld, sondern um ggf. eine Ersatzlösung zu schaffen:

Sowohl @rgerhards als auch ich denken gerade darüber nach, selbst Pangolin und/oder Nextclade auf eigener Infrastruktur aufzusetzen und damit forlaufend selbst die Zuordnung der Sequenzen zu den Entwicklungslinien durchzuführen. Das wäre natürlich ein gewisser Aufwand, der sich nur lohnen würden wenn:

Im Moment scheint es mir, als ob die Probleme beide Arten von Daten betreffen. So deute ich zumindest diese Grafik von rainer-gerhards.de

Eingebundenes Diagramm von rainer-gerhards.de

cuehs commented 2 years ago

@lenaschimmel Im Normalfall sollten entweder Sequenzdaten und Klassifizierung oder keins von beiden in das Repository gepusht werden. Eine Zeitrahmen bis wann unsere Pipelines wieder stabil laufen kann ich nennen. Wir arbeiten mit hoher Priorität daran. Nicht laufende Pipelines verursachen bei uns Mehrarbeit ;)

rgerhards commented 2 years ago

@cuehs

Im Normalfall sollten entweder Sequenzdaten und Klassifizierung oder keins von beiden in das Repository gepusht werden.

Das klappt leider seit geraumer Zeit nicht mehr in Bezug auf die Datei Entwicklungslinien. Der letzte Update war für die repräsentative Stichprobe ('N') am 3.3., und dann noch mal ein bisschen (nur X, verschwindend wenig A) am 6. und 7. Alle 7-Tage Fenster nach DATE_DRAW sind seit einigen Tagen auf 0 (für 'N').

Daher auch die etwas verzweifelte Idee, die Klassifizierung selbst zu machen (zumindest meine Rechner sind dafür auch ein bisschen schwach).

Hint: Es wäre toll, wenn die Datei Entwicklungslinien mal wieder von Hand gepushed würde. ;-)

Und ja, ich weiß, es ist immer viel zu tun - von daher auch volles Verständnis, wenn keine Zeit dafür da ist. Ansonsten: viel Erfolg mit er Pipeline.

grafik

rgerhards commented 2 years ago

Nachtrag: in Auswertungen sieht das traurige 7-Tage Fenster dann so aus ;-) tmp

cuehs commented 2 years ago

@rgerhards ich hab die entsprechenden Kolleg*innen darauf angesprochen. Es sollte morgen früh wieder ein Update geben.

cuehs commented 2 years ago

Ich hoffe das die Pipeline jetzt wieder stabil(er) läuft. @rgerhards: sieht es auf deiner Seite besser aus?

lenaschimmel commented 2 years ago

Ich kann natürlich nicht für @rgerhards sprechen, aber was die bloßen Zeitpunkte der Commits angeht, ist es nun seit drei Tagen wieder so stabil wie zuletzt um den 25. Februar herum.

Danke!

Commit Plot

rgerhards commented 2 years ago

Ich hoffe das die Pipeline jetzt wieder stabil(er) läuft. @rgerhards: sieht es auf deiner Seite besser aus?

Definitiv! Im Moment kommen die Daten eigentlich genau wie erwartet rein, d.h. am morgen die Entwicklungslinien. Seit Sonntag. Samstag hat's entweder noch gehangen, oder es kommt Samstags kein Update.

Ich seh auch gerade, github ist intelligenter, als ich dachte, Mein Plot hier weiteroben (https://github.com/robert-koch-institut/SARS-CoV-2-Sequenzdaten_aus_Deutschland/issues/15#issuecomment-1064151441 ) aktualisiert sich automatisch, ist kein one-shot cache.