robert-koch-institut / SARS-CoV-2-Sequenzdaten_aus_Deutschland

Ein zentraler Bestandteil einer erfolgreichen Erregersurveillance ist das Verständnis der Verbreitung eines Erregers sowie seiner pathogenen Eigenschaften. Hierbei stellt das Wissen über das Erregergenom eine wichtige Informationsquelle dar. So erlaubt der Nachweis von Mutationen im Genom eines Erregers, Verwandtschaftsbeziehungen zu rekonstruie...
https://robert-koch-institut.github.io/SARS-CoV-2-Sequenzdaten_aus_Deutschland/
Creative Commons Attribution 4.0 International
67 stars 7 forks source link

Manchmal kein Update der SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz #7

Closed lenaschimmel closed 2 years ago

lenaschimmel commented 2 years ago

Während zuverlässig jeden Tag ein commit mit den neuen Sequenzen vorliegt, fehlt an einigen Tagen das Update der Datei SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz:

Mich würde interessieren, ob das quasi zufällige Ereignisse in einem vollautomatisierten Workflow sind, oder ob über die Feiertage vermehrt mit Ausfällen zu rechnen ist.

_Hintergrund: ich hab kürzlich ein paar Skripte entwickelt, mit denen ich aus den Sequenzen in SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz ermittle, wie viele Omikron-Fälle bisher bekannt sind. Ich habe erst danach festgestellt, dass diese Information ja bereits viel zugänglicher in SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz liegt, und mein Skript eigentlich nutzlos ist. An Tagen, an denen das Update fehlt, ist es vielleicht doch noch ganz nützlich._


An der Stelle möchte ich euch danken, dass ihr dieses Repository hier anbietet, und dass ihr offenbar auch heute noch fleißig dabei seid, auf Issues zu reagieren!

HannesWuensche commented 2 years ago

Hallo @lenaschimmel,

vielen Dank für die Rückmeldung.

Eigentlich sollte es nicht dazu kommen, dass eine der drei Dateien, nicht gepudated wird. Da der Datensatz bisher wenig Aufmerksamkeit erfahren hat, sind uns einige Unregelmäßigkeit im Betrieb nicht aufgefallen. Wir werden die Fehler im neuen Jahr analysieren und versuchen die Datenbereitstellung verbessern.

Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data

corneliusroemer commented 2 years ago

@lenaschimmel kann es sein, dass du das File "Entwicklungslinien" meintest? Am 24.12. wurden nämlich die beiden anderen Files sehr wohl geupdated, Entwicklungslinien aber nicht.

Eine mögliche Non-Bug-Erklärung könnte sein, dass an diesem Tag keine Sequenz Pangos QC gepassed hat und deshalb keine Addition zu den Entwicklungslinien gab.

Die andere Möglichkeit ist, dass pangolin aus einem anderen Grund gefailed hat. Man müsste sich mal die Diffs unkomprimiert anschauen.

lenaschimmel commented 2 years ago

Ja, hab den Dateinamen gleich an drei Stellen falsch copy-pasted. Hab jetzt (hoffentlich) alle behoben.

cuehs commented 2 years ago

hi @lenaschimmel Das Berechnen der Lineages läuft automatisch aber unabhängig von der sonstigen Datenverarbeitung ab. Daher kann es vorkommen, dass zum Zeitpunkt der Veröffentlichung die Lineages für den aktuellen Tag noch nicht vorliegen. Normalerweise sollten sie dann aber am darauffolgenden Tag vorliegen und veröffentlicht werden. Wir versuchen natürlich zu verhindern, dass dies passiert. Ganz verhindern lässt sich dies, auch aufgrund der längeren Berechnungsdauer, nicht.

lenaschimmel commented 2 years ago

Hallo @cuehs, Danke für die Erklärung! Für die meisten Lücken find ich das verständlich. So wie ich mir das vorstelle, dürften dann mehrere Tage in Folge ohne Update (wie 13. und 14. November oder 23., 24. und 25. September) nicht passieren, da ja z.B. am 14. November immerhin schon die verspätete Berechnung, die am 13. fehlte, nachgeliefert würde.

(sorry, bin beim Antworten auf dem Handy abgerutsch und hatte somit versehentlich auf "Close Issue" getippt.)

corneliusroemer commented 2 years ago

@cuehs Falls ihr Zeit und Lust habt: Wenn ihr die Berechnungszeit verkürzen wollt wäre splitting eine Möglichkeit. Leider parallelisiert ja pangolin selbst nicht, deswegen muss man das händisch machen, etwas nervig aber machbar - je nachdem welches Tool ihr für den Workflow nutzt mehr oder weniger einfach.

Wenn sich die pangolin-Version nicht verändert hat, müsstet ihr nur die neuen Sequenzen durch pangolin durchjagen, ansonsten alle - das kann dann in der Tat dauern, wenn man es nicht stark parallelisiert.

cuehs commented 2 years ago

Wir parallelisieren die Berechnung der Lineages bereits wie vorgeschlagen

HannesWuensche commented 2 years ago

Hallo @lenaschimmel, Hallo @corneliusroemer,

nach euren Anregungen, haben wir unsere Datenbereitstellung etwas weiter differenziert. Die reinen Sequenzdaten werden jetzt immer schon abends bereitgestellt. Wer die Lineages schneller berechnen will, könnte dies tun.

Am frühen morgen werden dann die Entwicklungslinien separat publiziert. Der Prozess ist so angepasst, dass wir auch mitbekommen, wenn die aktuellen Entwicklungslinien fehlen.

Wir hoffen so die Qualität der Bereitstellung noch noch weiter verbessert zu haben. In jedem Fall vielen Dank für das Feedback.

Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data

corneliusroemer commented 2 years ago

Super, vielen lieben Dank! Es ist wirklich praktisch, die Daten direkt von der Quelle zu haben, so ist man ungefaehr 1 Woche schneller als über GISAID.

HannesWuensche commented 2 years ago

Nichts freut uns mehr als wenn es genutzt wird. Leider scheint es direkt einen Verzögerung in der Datenbereitstellung zu geben. 😞