Closed lenaschimmel closed 2 years ago
Hallo @lenaschimmel,
vielen Dank für die Rückmeldung.
Eigentlich sollte es nicht dazu kommen, dass eine der drei Dateien, nicht gepudated wird. Da der Datensatz bisher wenig Aufmerksamkeit erfahren hat, sind uns einige Unregelmäßigkeit im Betrieb nicht aufgefallen. Wir werden die Fehler im neuen Jahr analysieren und versuchen die Datenbereitstellung verbessern.
Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data
@lenaschimmel kann es sein, dass du das File "Entwicklungslinien" meintest? Am 24.12. wurden nämlich die beiden anderen Files sehr wohl geupdated, Entwicklungslinien aber nicht.
Eine mögliche Non-Bug-Erklärung könnte sein, dass an diesem Tag keine Sequenz Pangos QC gepassed hat und deshalb keine Addition zu den Entwicklungslinien gab.
Die andere Möglichkeit ist, dass pangolin aus einem anderen Grund gefailed hat. Man müsste sich mal die Diffs unkomprimiert anschauen.
Ja, hab den Dateinamen gleich an drei Stellen falsch copy-pasted. Hab jetzt (hoffentlich) alle behoben.
hi @lenaschimmel Das Berechnen der Lineages läuft automatisch aber unabhängig von der sonstigen Datenverarbeitung ab. Daher kann es vorkommen, dass zum Zeitpunkt der Veröffentlichung die Lineages für den aktuellen Tag noch nicht vorliegen. Normalerweise sollten sie dann aber am darauffolgenden Tag vorliegen und veröffentlicht werden. Wir versuchen natürlich zu verhindern, dass dies passiert. Ganz verhindern lässt sich dies, auch aufgrund der längeren Berechnungsdauer, nicht.
Hallo @cuehs, Danke für die Erklärung! Für die meisten Lücken find ich das verständlich. So wie ich mir das vorstelle, dürften dann mehrere Tage in Folge ohne Update (wie 13. und 14. November oder 23., 24. und 25. September) nicht passieren, da ja z.B. am 14. November immerhin schon die verspätete Berechnung, die am 13. fehlte, nachgeliefert würde.
(sorry, bin beim Antworten auf dem Handy abgerutsch und hatte somit versehentlich auf "Close Issue" getippt.)
@cuehs Falls ihr Zeit und Lust habt: Wenn ihr die Berechnungszeit verkürzen wollt wäre splitting eine Möglichkeit. Leider parallelisiert ja pangolin selbst nicht, deswegen muss man das händisch machen, etwas nervig aber machbar - je nachdem welches Tool ihr für den Workflow nutzt mehr oder weniger einfach.
Wenn sich die pangolin-Version nicht verändert hat, müsstet ihr nur die neuen Sequenzen durch pangolin durchjagen, ansonsten alle - das kann dann in der Tat dauern, wenn man es nicht stark parallelisiert.
Wir parallelisieren die Berechnung der Lineages bereits wie vorgeschlagen
Hallo @lenaschimmel, Hallo @corneliusroemer,
nach euren Anregungen, haben wir unsere Datenbereitstellung etwas weiter differenziert.
Die reinen Sequenzdaten
werden jetzt immer schon abends bereitgestellt. Wer die Lineages schneller berechnen will, könnte dies tun.
Am frühen morgen werden dann die Entwicklungslinien
separat publiziert. Der Prozess ist so angepasst, dass wir auch mitbekommen, wenn die aktuellen Entwicklungslinien fehlen.
Wir hoffen so die Qualität der Bereitstellung noch noch weiter verbessert zu haben. In jedem Fall vielen Dank für das Feedback.
Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data
Super, vielen lieben Dank! Es ist wirklich praktisch, die Daten direkt von der Quelle zu haben, so ist man ungefaehr 1 Woche schneller als über GISAID.
Nichts freut uns mehr als wenn es genutzt wird. Leider scheint es direkt einen Verzögerung in der Datenbereitstellung zu geben. 😞
Während zuverlässig jeden Tag ein commit mit den neuen Sequenzen vorliegt, fehlt an einigen Tagen das Update der Datei
SARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz
:Mich würde interessieren, ob das quasi zufällige Ereignisse in einem vollautomatisierten Workflow sind, oder ob über die Feiertage vermehrt mit Ausfällen zu rechnen ist.
_Hintergrund: ich hab kürzlich ein paar Skripte entwickelt, mit denen ich aus den Sequenzen in
SARS-CoV-2-Sequenzdaten_Deutschland.fasta.xz
ermittle, wie viele Omikron-Fälle bisher bekannt sind. Ich habe erst danach festgestellt, dass diese Information ja bereits viel zugänglicher inSARS-CoV-2-Entwicklungslinien_Deutschland.csv.xz
liegt, und mein Skript eigentlich nutzlos ist. An Tagen, an denen das Update fehlt, ist es vielleicht doch noch ganz nützlich._An der Stelle möchte ich euch danken, dass ihr dieses Repository hier anbietet, und dass ihr offenbar auch heute noch fleißig dabei seid, auf Issues zu reagieren!