robert-koch-institut / SARS-CoV-2-Sequenzdaten_aus_Deutschland

Ein zentraler Bestandteil einer erfolgreichen Erregersurveillance ist das Verständnis der Verbreitung eines Erregers sowie seiner pathogenen Eigenschaften. Hierbei stellt das Wissen über das Erregergenom eine wichtige Informationsquelle dar. So erlaubt der Nachweis von Mutationen im Genom eines Erregers, Verwandtschaftsbeziehungen zu rekonstruie...
https://robert-koch-institut.github.io/SARS-CoV-2-Sequenzdaten_aus_Deutschland/
Creative Commons Attribution 4.0 International
67 stars 7 forks source link

Data pipeline stuck since Saturday 25th of June #26

Closed HannesWuensche closed 2 years ago

HannesWuensche commented 2 years ago

Dear Users,

There seems to be a problem at Bundesdruckerei which leads to us not receiving any new DESH-Data. The BDR was informed and now we can hope that the error will be fixed soon. The Autopilot pipeline continues to run anyway, so the GISAID reports will keep getting updated, but the DESH-Data which will be processed will stay on the level of last Friday evenings data.

We hope to fixe the error soon and get new data again.

Best Regrads @HannesWuensche Team RKI | Open Data

icestorm972 commented 2 years ago

Heute Nacht kam zwar ein Update, aber die Dateien sind kleiner als Stand 25.06.22 und alle Einträge/Sequenzen für IMS_IDs ab Ende Mai / Anfang Juni scheinen zu fehlen?

Nachtrag / Zur Info: Der neueste Upload enthielt Daten ab Prozessierungsdatum 2022-06-29, aber wie im vorherigen fehlt für 2022-06-01 die Einträge direkt nach "IMS-10116-CVDP-8D195B36-9E33-4C9D-869A-53504E94FF2C", und alle von 2022-06-02 bis Prozessierungsdatum 2022-06-28.

corneliusroemer commented 2 years ago

I see, danke für das Update!

Ich hatte mich grad gefragt, warum ich die beiden deutschen BA.2.75 nicht in den DESH-Daten finden konnte und wollte gerade ein Issue öffnen - aber das erklärt es ja wunderbar.

In den neuesten 10k Sequenzen ist immerhin kein BA.2.75 - das ist schonmal gut.

Hier die Uploaddaten, man sieht die Lücke von 2. Juni bis 28. Juni.

2022-05-29      220
2022-05-30      1635
2022-05-31      1100
2022-06-01      352
2022-06-29      2213
2022-06-30      3967
2022-07-01      1762
2022-07-02      754
icestorm972 commented 2 years ago

Ja @corneliusroemer, im Datenstand vom 26. Juni sind die beiden Sequenzen noch enthalten (benutze zur Zeit ein Hybrid aus diesem Datenstand und dem neuesten als "Update" als Workaround):

IMS_ID               IMS-10122-CVDP-8BC99213-B079-44EC-9AC3-91D4EF41D330 IMS-10122-CVDP-2497D58F-DEEB-4B84-A6C1-370B2D1BA2D9
DATE_DRAW                                           2022-06-06 00:00:00                                 2022-06-03 00:00:00 
SEQ_REASON                                                            X                                                   X 
Nextclade_pango                                                    BA.2                                                BA.2 
aaSubstitutions       E:T9I,E:T11A,M:Q19E,M:A63T,N:P13L,N:R203K,N:G2...   E:T9I,E:T11A,M:Q19E,M:A63T,N:P13L,N:R203K,N:G2... 
aaDeletions           N:E31-,N:R32-,N:S33-,ORF1a:S3675-,ORF1a:G3676-...   N:E31-,N:R32-,N:S33-,ORF1a:S3675-,ORF1a:G3676-... 
aaInsertions                                                        NaN                                                 NaN 
S:K147E                                                               1                                                   1 
S:W152R                                                               1                                                   1 
S:F147L                                                               0                                                   0 
S:I210V                                                               0                                                   0 
S:G257S                                                               1                                                   1 
S:D339H                                                               0                                                   0 
S:G446S                                                               1                                                   1 
S:N460K                                                               1                                                   1 
ORF1a:S1221L                                                          1                                                   1 
Mut. in Sample                                                        6                                                   6 
BA.2.75 (6 out of 9)                                                  1                                                   1 
total                                                                 1                                                   1 
icestorm972 commented 2 years ago

Wenn ich gerade richtig gesehen habe, ist die vorhin hochgeladenene Version der Sequenzdaten identisch mit der vom 26.06.22, sprich ohne das Datenloch wie die Tage zuvor aber ohne neue Daten nach 24.06.22

P.S. Gestern Nacht sieht auf den ersten Blick gut aus :-) Figure 2022-07-05 232638