robert-koch-institut / SARS-CoV-2-Sequenzdaten_aus_Deutschland

Ein zentraler Bestandteil einer erfolgreichen Erregersurveillance ist das Verständnis der Verbreitung eines Erregers sowie seiner pathogenen Eigenschaften. Hierbei stellt das Wissen über das Erregergenom eine wichtige Informationsquelle dar. So erlaubt der Nachweis von Mutationen im Genom eines Erregers, Verwandtschaftsbeziehungen zu rekonstruie...
https://robert-koch-institut.github.io/SARS-CoV-2-Sequenzdaten_aus_Deutschland/
Creative Commons Attribution 4.0 International
67 stars 7 forks source link

Einige Labore scheinen falsch zu randomisieren, entweder zu viel oder zu wenig Omikron in `REASON=N` #9

Closed corneliusroemer closed 2 years ago

corneliusroemer commented 2 years ago

Bei einer hierarchischen Analyse der Omikronausbreitung ist mir aufgefallen, dass es (mit Sicherheit) 3 Labore gibt die einen unmöglich hohen Omikron-Anteil in den angeblich repräsentativen Surveillance-Proben (markiert mit Grund N) hochladen.

Es handelt sich um Labore mit den SENDING_PC:

Meine Vermutung ist, dass diese Labore Varianten-PCRs machen und dann aus Versehen den falschen Grund angeben.

Wenn man sich die Submissions der genannten Labore ansieht wurden da in letzter Zeit fast nur Omikrons übermittelt, und zwar in einem Maße das sehr inkonsistent ist mit dem Omikron-Anteil aller anderer deutschen Labore, siehe Plot unten.

Es gibt auch Labore, die möglicherweise zu wenige Omikrons ausweisen. Ein möglicher Mechanismus der dies begründen könnte:

  1. Labore führen eine Varianten-PCR durch
  2. Positive Proben werden als Verdachtsgrund sequenziert (mit A oder Y)
  3. Aus den restlichen Proben werden Proben für die repräsentative Surveillance gezogen, dann mit N gelabelt.

Es ist klar, dass so die Randomisierung/Repräsentativität verletzt wird.

Es ist schwierig zu beweisen, dass dieser Fehler von manchen Laboren begangen wird aber ich kann es mir durchaus vorstellen.

Labore bei denen der Verdacht besteht sind auch im Plot unten identifizierbar, es handelt sich um Labore mit hohem Outlierness-Score und niedrigem Omikron-Anteil. Also relativ weit oben im Plot und im rechten Plot auf der linken Seite.

Wie zum Beispiel die Labore mit PLZ:

Diese Labore haben viele Sequenzen übermittelt aber (fast) keine (zu wenige) Omikrons.

Es würde sich wahrscheinlich lohnen, mal bei den genannten Laboren nachzufragen, ob sie möglicherweise die Instruktionen missverstanden haben.

image

cuehs commented 2 years ago

@corneliusroemer Vielen Dank für deinen Hinweis. Wir haben die Anmerkungen an die entsprechenden Stellen am RKI weitergeleitet die sich dann mit den Laboren in Verbindung setzen.

corneliusroemer commented 2 years ago

@HannesWuensche Mich würde interessieren, ob es Rückmeldungen/Korrekturen von den Laboren gab zur Randomisierung, jetzt wo das Issue geschlossen wurde. Danke!