robert-koch-institut / Abwassersurveillance_AMELAG

Das Vorhaben „Abwassermonitoring für die epidemiologische Lagebewertung“ (AMELAG) läuft vom 22.11.2022 bis zum 31.12.2024. Behörden, Kläranlagen und Labore arbeiten zusammen, um Proben zu nehmen, zu analysieren und zu bewerten. Das Ziel dieses Vorhabens ist es, SARS-CoV-2-Nachweise aus dem Abwasser als zusätzlichen Indikator zur epidemiologische...
https://robert-koch-institut.github.io/Abwassersurveillance_AMELAG/
Creative Commons Attribution 4.0 International
10 stars 1 forks source link
abwasserbasierte-epidemiologische-ueberwachung covid-19 deutschland germany offene-daten open-data rki sars-cov-2 wastewater-based-epidemiological-monitoring

Datensatzdokumentation

Abwassersurveillance AMELAG

Robert Koch-Institut | RKI
Nordufer 20
13353 Berlin


Fachgebiet 32 | Surveillance und elektronisches Melde- und Informationssystem (DEMIS) | ÖGD-Kontaktstelle


Zitieren
Fachgebiet 32, Robert Koch-Institut (2024): Abwassersurveillance AMELAG, Berlin: Zenodo. DOI: 10.5281/zenodo.12635858


--- see English version below ---

Informationen zum Datensatz und Entstehungskontext

Das Vorhaben „Abwassermonitoring für die epidemiologische Lagebewertung“ (AMELAG) läuft vom 22.11.2022 bis zum 31.12.2024. Behörden, Kläranlagen und Labore arbeiten zusammen, um Proben zu nehmen, zu analysieren und zu bewerten. Das Ziel dieses Vorhabens ist es, SARS-CoV-2-Nachweise aus dem Abwasser als zusätzlichen Indikator zur epidemiologischen Lagebewertung auf Länder- und Bundesebene zu etablieren. Ebenso ist es das Ziel, Strukturen und Prozesse für ein bundesweites Netzwerk für die Abwassersurveillance weiter auszubauen, Konzepte für eine Verstetigung zu erstellen und die Möglichkeiten für ein Monitoring von weiteren Krankheitserregern im Abwasser zu erforschen. Aktuell werden Abwasserproben von ausgewählten Kläranlagen auf SARS-CoV-2 und Influenzaviren untersucht. Bei der Abwassersurveillance werden Erreger im Abwasser gemessen um Gesundheitsschutzmaßnahmen besser steuern zu können. Abwassersurveillance kann einen Beitrag für eine Reihe von Anwendungsfällen liefern. Abwasserdaten unterliegen speziellen Limitationen, beispielsweise erlauben sie keine genaue Einschätzung von Krankheitsschwere oder Belastung des Gesundheitssystems. Bei der epidemiologischen Bewertung sollten die Daten mit anderen Indikatoren, z.B. aus der syndromischen Surveillance, kombiniert werden.

Administrative und organisatorische Angaben

AMELAG ist ein vom Bundesministerium für Gesundheit (BMG) gefördertes Vorhaben und wird in Kooperation mit dem Bundesministerium für Umwelt, Naturschutz, nukleare Sicherheit und Verbraucherschutz (BMUV) durchgeführt. Das Vorhaben wird vom Robert Koch-Institut (RKI) und Umweltbundesamt (UBA) gemeinsam durchgeführt. Weitere Informationen zu AMELAG finden Sie auf der Projektwebseite.
Die Durchführung der Probenahme erfolgt durch die teilnehmenden Kläranlagen. Die Analyse der Proben erfolgt durch die teilnehmenden Labore. Neben kommerziellen Laboren, Landeslaboren und dem Umweltbundesamt führt der zentrale Sanitätsdienst der Bundeswehr einen Teil der Analytik durch.

Ein Teil der Kläranlagen und Labore sind gleichzeitig in Projekten der Bundesländer zur Abwassersurveillance beteiligt (Baden-Württemberg, Bayern, Berlin, Brandenburg, Hamburg, Hessen, Rheinland-Pfalz, Sachsen-Anhalt). Weitere Kläranlagen und Labore sind Teil der folgenden Forschungsprojekte:

Die Firma ENDA wurde mit der Datenhaltung beauftragt. Die erhobenen Daten werden dort in einer Datenbank (PiA-Monitor) gespeichert und weiterverarbeitet.

Die Verarbeitung, Aufbereitung und Veröffentlichung der Daten erfolgen durch das Fachgebiet MF 4 | Fach- und Forschungsdatenmanagement. Fragen zum Datenmanagement und zur Publikationsinfrastruktur können an das Open Data-Team des Fachgebiets MF4 unter OpenData@rki.de gerichtet werden.

Datenerhebung

In AMELAG wurden aufbauend auf die im Rahmen des ESI-CorA-Projekts erstellten Handreichungen zur Probennahme und Laboranalytik technische Leitfäden entwickelt. Die SARS-CoV-2-Rohdaten der im ESI-CorA-Projekt analysierten Abwasserproben wurden in AMELAG nachgenutzt und sind in den ausgewerteten Daten enthalten. An jeder beteiligten Kläranlage werden in aller Regel zwei Mal pro Woche Rohabwasserproben entnommen und zusammen mit den Begleitparametern (z.B. Volumenstrom, pH-Wert, Temperatur), die für die Normalisierung und Qualitätssicherung nötig sind, erhoben. Die Rohabwasserproben sollen, sofern möglich, nach dem Sandfang der Kläranlage entnommen werden. Es wird eine 24-Stunden-Mischprobe entnommen, welche mit einem automatischen Probennehmer durchgeführt wird. Die 24-Stunden-Probennahmen erfolgen in der Regel jeweils montags auf dienstags und mittwochs auf donnerstags. Im Regelfall wird ein Liter der Probe in Probenflaschen abgefüllt und an das Analyselabor versendet. Im Labor erfolgt die Aufkonzentrierung, Extraktion der viralen Nukleinsäure und Quantifizierung der viralen Gensequenzen durch digitale PCR (dPCR) oder quantitative real time PCR (qRT-PCR). Bei SARS-CoV-2 werden mindestens zwei Genfragmente (Vorzugsweise N1, N2, E, ORF oder RdRp) bestimmt und bei den Influenzaviren ein Genfragment (M1 für Influenza-A-Virus und M1, NS1, NS2 oder HA für Influenza-B-Virus).

Robert Koch-Institut, Fachgebiet 32 (2024): "ESI-CorA: SARS-CoV-2-Abwassersurveillance" [Data set]. Zenodo. DOI: 10.5281/zenodo.10781653

Datenfluss

Datenfluss AMELAG

Beim UBA laufen die Metadaten zu den Kläranlagen und den Laboren sowie die regelmäßig erhobenen Monitoringdaten zentral in einer Webanwendung, dem PiA-Monitor (Pathogene im Abwasser), zusammen, werden dort gespeichert und weiterverarbeitet. Die regelmäßig zu erfassenden Monitoringdaten der Kläranlagen und die Analysedaten der Labore werden zusammengeführt und von den datenliefernden Stellen über die Web-Anwendung der Datenbank importiert. Das UBA, das RKI und die Landesbehörden können auf die Daten im Rahmen ihrer jeweiligen Rechte zugreifen.

Plausibilitätsprüfung und Weiterverarbeitung der Daten

Mit dem Datenimport werden die Daten auf Plausibilität geprüft. Dabei werden die Formate, Vollständigkeit der Angaben (Pflichtfeldangaben), Wertebereiche der Monitoringdaten, Plausibilität der Datumsangaben und die Übereinstimmung mit hinterlegten Metadaten geprüft. Nur Datensätze, welche die Qualitätsprüfung erfolgreich durchlaufen, werden auch in die Datenbank importiert. Für SARS-CoV-2 wird der geometrische Mittelwert der Viruslast (Genkopien/Liter) aus den zwei oder mehr gemessenen Zielgenen ermittelt.

Normalisierungsverfahren

Eine variierende Abwasserzusammensetzung, z. B. aufgrund von unregelmäßigen industriellen Einflüssen oder Starkregenereignissen, kann zu veränderten Konzentrationen von SARS-CoV-2 führen. Um diese externen Einflüsse zu berücksichtigen, kann die gemessene Viruslast normalisiert werden. In AMELAG wird die SARS-CoV-2-Last auf den Durchfluss der Kläranlage normalisiert. Dabei ist der Trockenwetterzufluss der Kläranlage die Referenz. Folgende Formel wurde hierbei verwendet:

$$ Gene{normalisiert} = {Q{KA_aktuell}}/{Q{KA_median}} \cdot Gene{gemittelt} $$

wo:

Die Normalisierung erfolgt automatisiert mit dem Datenimport. Die gemessenen Viruslasten von Influenzaviren werden derzeit nicht normalisiert, da sich für die Influenzavirusdaten keine verbesserte Datenqualität durch die Normalisierung feststellen lässt.

Datenauswertung

Die Auswertung der Daten erfolgt am RKI über R-Skripte. Die Skripte sind in den Kontextmaterialien enthalten. Eine genaue Beschreibung der Methodikist in den technischen Leitfäden hinterlget. Die Ergebnisse werden wöchentlich im AMELAG Wochenbericht auf der RKI-Webseite veröffentlicht.

Für jeden Standort werden die Messwerte für SARS-CoV-2 (normalisiert) und Influenza A und B-Virus (nicht normalisiert) in Genkopien pro Liter (Genkopien/L) angegeben. Zusätzlich werden die Messwerte der logarithmierten und ggf. normalisierten Genkopien mittels einer lokal gewichteten Regression (LOESS) geglättet und zugehörige Konfidenzintervalle berechnet.

Für SARS-CoV-2 wird ein Trend berechnet. Der Trend für eine Kläranlage ergibt sich aus der Veränderung des von der LOESS-Methode geschätzten Werts an einem Mittwoch einer Woche gegenüber dem für den vorherigen Mittwoch vorhergesagten Wert, wobei die Werte vorher zurück auf die Originalskala transformiert wurden.

Aggregation der Standortwerte

Es werden die einzelnen Zeitreihen der Standorte aggregiert, um einen bundesweiten Verlauf der SARS-CoV-2 bzw. Influenzaviren-Viruslast im Abwasser abzubilden. Dafür werden in jeder Woche, in der für mindestens 10 Standorte Messwerte vorliegen, der Mittelwert über die über eine Woche gemittelten logarithmierten Messwerte der einzelnen Standorte berechnet. Dabei wird nach den angeschlossenen Einwohnern der Kläranlage gewichtet. Für Influenzaviren erfolgt derzeit keine Gewichtung nach Einwohnern.

Hinweise zur Datenauswertung

Bei der Datenbewertung sind einige Besonderheiten zu beachten:

Limitationen

Abwasserdaten erlauben keinen Rückschluss auf die Krankheitsschwere oder die Belastung des Gesundheitssystems. Aus Abwasserdaten kann nach aktuellem Stand nicht präzise auf Inzidenz/Prävalenz oder die Untererfassung (die sog. „Dunkelziffer”) geschlossen werden. Für die epidemiologische Lagebewertung sollten die Daten immer in Zusammenschau mit anderen Indikatoren, z.B. aus der syndromischen Surveillance, betrachtet werden. Absolute Viruslasten können insbesondere über längere Zeiträume nicht direkt im Hinblick auf die Anzahl an Infizierten verglichen werden, da sich die ausgeschiedene Virusmenge pro infizierter Person beispielsweise zwischen verschiedenen Virusvarianten unterscheiden kann. Die ermittelten Werte werden durch eine Vielzahl von Faktoren (z.B. Veränderungen der Abwasserzuleitung, Starkregenereignisse oder touristische Ereignisse) beeinflusst, was durch die Normalisierung nur teilweise ausgeglichen werden kann.

Von der Probenahme bis zur Datenübermittlung und Veröffentlichung vom RKI kann es zu einem Zeitverzug von bis zu zwei Wochen kommen.

Inhalt und Aufbau des Datensatzes

Im AMELAG-Datensatz werden Daten und Kontextmaterialien zu SARS-CoV-2-Nachweisen im Abwasser bereitgestellt. Die im Projekt erhobenen Daten liegen für einzelne Standorte und als aggregierte Zeitreihe vor.

Im Datensatz zusätzlich enthalten sind:

Daten für die einzelnen Standorte

In der Datei amelag_einzelstandorte.tsv sind die normalisierten Daten zur SARS-CoV-2-Viruslast und die nicht normalisierten Daten zur Influenza A- und B-Viruslast für die einzelnen Standorte angegeben.

amelag_einzelstandorte.tsv

Variablen und Variablenausprägungen

Die Datei amelag_einzelstandorte.tsv enthält die in der folgenden Tabelle abgebildeten Variablen und deren Ausprägungen:

Variable Typ Ausprägung Beschreibung
standort Text Standort, an dem sich die Kläranlage befindet.
bundesland Text BB, BE, BW, BY, HB, HE, HH, MV, NI, NW, RP, SH, SL, SN, ST, TH Bundesland (abgekürzt), in dem sich die Kläranlage befindet.
datum Datum jjjj-mm-tt oder NA Datum, an dem die 24-Stunden-Mischprobe in der Kläranlage begonnen hat.
viruslast Gleitkommazahl ≥0 oder NA Gemessene SARS-CoV-2-Viruslast in Genkopien pro Liter.
loess_vorhersage Gleitkommazahl ≥0 oder NA Die mittels einer LOESS-Regression (optimiert mittels GCV-Kriterium für die 10er-logarithmierten Viruslasten) vorhergesagten Viruslasten.
loess_obere_schranke Gleitkommazahl ≥0 oder NA Obere Grenze des punktweisen 95%-Konfidenzintervalls des LOESS-Vorhersagewerts.
loess_untere_schranke Gleitkommazahl ≥0 oder NA Untere Grenze des punktweisen 95%-Konfidenzintervalls des LOESS-Vorhersagewerts.
loess_aenderung Gleitkommazahl ≥0 oder NA Änderung des LOESS-Vorhersagewerts zur Vorwoche, d.h. Quotient aus aktuellem Wert und dem Vorwochenwert.
einwohner Natürliche Zahl ≥0 oder NA Einwohner, die an das Klärwerk des Standortes angeschlossen sind.
laborwechsel Text ja, nein oder NA Laborwechsel bzw. Änderungen in den Labormethoden.
trend Text Ansteigend, Fallend, Unverändert, keine Daten vorhanden, NA Kategorisierte Veränderung des geglätteten LOESS-Wertes von einem Mittwoch zum Mittwoch der Vorwoche (siehe Datenauswertung)
normalisierung Text ja, nein oder NA Normalisierung nach Durchfluss.
typ Text SARS-CoV-2, Influenza A, Influenza B oder Influenza A+B Virustyp.
unter_bg Text ja, nein oder NA Mindestens die Hälfte der gemessenen Gene liegen unterhalb der Bestimmungsgrenze.

Daten über alle Standorte aggregiert

In der Datei amelag_aggregierte_kurve.tsv ist die Zeitreihe der SARS-CoV-2-, Influenza A- und Influenza B-Viruslast auf aggregierter bzw. bundesweiter Ebene enthalten.

amelag_aggregierte_kurve.tsv

Variablen und Variablenausprägungen

Die Datei amelag_aggregierte_kurve.tsv enthält die in der folgenden Tabelle abgebildeten Variablen und deren Ausprägungen:

Variable Typ Ausprägung Beschreibung
datum Datum jjjj-mm-tt Datum des Mittwochs einer Woche
n Natürliche Zahl ≥0 Anzahl der Standorte, die mindestens einen Messwert im durch “datum” definierten Zeitraum übermittelt haben.
anteil_bev Gleitkommazahl ≥0 oder NA Anteil der Gesamtbevölkerung in Deutschland, der an die übermittelnden Klärwerke angeschlossen ist.
viruslast Gleitkommazahl ≥0 oder NA SARS-CoV-2-Viruslast in Genkopien pro Liter gemittelt über alle Standorte und gewichtet nach angeschlossenen Einwohnern der Kläranlagen. Vor der Mittelung über die Standorte wurden alle Messwerte der Standorte in den letzten 7 Tagen jeweils mittels 10er-Logarithmus transformiert und über die einzelnen Standorte gemittelt. Die angegebene Viruslast ist der auf die Originalskala zurücktransformierte Mittelwert.
loess_vorhersage Gleitkommazahl ≥0 oder NA Die mittels einer LOESS-Regression vorhergesagten Viruslasten, zurücktransformiert auf die Originalskala.
loess_obere_schranke Gleitkommazahl ≥0 Obere Grenze des punktweisen 95%-Konfidenzintervalls des LOESS-Vorhersagewerts.
loess_untere_schranke Gleitkommazahl ≥0 Untere Grenze des punktweisen 95%-Konfidenzintervalls des LOESS-Vorhersagewerts.
normalisierung Text ja, nein oder NA Unterliegenden Einzelzeitreihen nach Durchfluss normalisiert.
typ Text SARS-CoV-2, Influenza A, Influenza B oder Influenza A+B Virustyp.

Kontextmaterialien

Zur Reproduktion der Ergebnisse des AMELAG Wochenberichts werden die zur Erstellung der Analyse verwendeten R-Skripte bereitgestellt. Die Skripte befinden sich im Ordner "Kontextmatrialien" des Datensatzes.

Kontextmatrialien

Metadaten

Zur Erhöhung der Auffindbarkeit sind die bereitgestellten Daten mit Metadaten beschrieben. Über GitHub Actions werden Metadaten an die entsprechenden Plattformen verteilt. Für jede Plattform existiert eine spezifische Metadatendatei, diese sind im Metadatenordner hinterlegt:

Metadaten/  

Versionierung und DOI-Vergabe erfolgt über Zenodo.org. Die für den Import in Zenodo bereitgestellten Metadaten sind in der zenodo.json hinterlegt. Die Dokumentation der einzelnen Metadatenvariablen ist unter https://developers.zenodo.org/#representation nachlesbar.  

Metadaten/zenodo.json

In der zenodo.json ist neben der Publikationsdatum ("publication_date") auch der Datenstand in folgendem Format enthalten (Beispiel):

  "dates": [
    {
      "start": "2023-09-11T15:00:21+02:00",
      "end": "2023-09-11T15:00:21+02:00",
      "type": "Collected",
      "description": "Date when the Dataset was created"
    }
  ],

Hinweise zur Nachnutzung der Daten

Offene Forschungsdaten des RKI werden auf Zenodo.org, GitHub.com, OpenCoDE und Edoc.rki.de bereitgestellt:

Lizenz

Der Datensatz "Abwassersurveillance AMELAG" ist lizenziert unter der Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International.

Die im Datensatz bereitgestellten Daten sind, unter Bedingung der Namensnennung des Robert Koch-Instituts als Quelle, frei verfügbar. Das bedeutet, jede Person hat das Recht die Daten zu verarbeiten und zu verändern, Derivate des Datensatzes zu erstellen und sie für kommerzielle und nicht kommerzielle Zwecke zu nutzen. Weitere Informationen zur Lizenz finden sich in der LICENSE bzw. LIZENZ Datei des Datensatzes.

Wastewater surveillance AMELAG

Robert Koch Institute | RKI
Nordufer 20
13353 Berlin


Unit 32 | Surveillance


Cite
Fachgebiet 32, Robert Koch-Institut (2024): Abwassersurveillance AMELAG, Berlin: Zenodo. DOI: 10.5281/zenodo.12635858


Information on the dataset and context of origin

In AMELAG (“Abwassermonitoring für die epidemiologische Lagebewertung”, German for wastewater monitoring for epidemiological situation assessment), running from 22.11.2022 to 31.12.2024, local authorities, wastewater treatment plants (WWTP) and laboratories are working together to take, analyze and evaluate wastewater samples. The project aims at testing wastewater samples for selected pathogens and to establish it as an additional indicator for the epidemiological situation assessment at state and federal level. Further aims of the project include further development of structures and processes for a nationwide wastewater surveillance network, to develop concepts for continuity and to research the possibilities for monitoring other pathogens in wastewater. Currently, wastewater samples from selected treatment plants are being tested for SARS-CoV-2 and influenza viruses.

Wastewater surveillance is a technique for detecting pathogens in wastewater to better control health protection measures. Wastewater surveillance has a range of applications. Wastewater data, however, underlie several limiations. For example, they do not allow for an accurate assessment of disease severity or the burden on the healthcare system. In epidemiological assessments, the data should be combined with other indicators, e.g. from syndromic surveillance.

Administrative and organizational information

AMELAG is a project funded by the Federal Ministry of Health (BMG) and is being conducted in cooperation with the Federal Ministry for the Environment, Nature Conservation, Nuclear Safety and Consumer Protection (BMUV). The project is being carried out jointly by the Robert Koch Institute (RKI) and the Federal Environment Agency (UBA). Further information on AMELAG can be found on the project website.
The participating WWTPs are responsible for taking samples, which are analyzed by the participating laboratories. In addition to commercial laboratories, state laboratories and the Federal Environment Agency, the Central Medical Service of the German Armed Forces also carries out part of the analysis.

Some of the WWTPs and laboratories are also involved in wastewater surveillance projects in the federal states (Baden-Württemberg, Bavaria, Berlin, Brandenburg, Hamburg, Hesse, Rhineland-Palatinate, Saxony-Anhalt). Other WWTPs and laboratories are part of the following research projects:

The company ENDA was commissioned with data management. The data collected are stored and processed in a database (PiA-Monitor).

The data are processed, edited and published by the Department MF 4 | Subject and Research Data Management. Questions about data management and the publication infrastructure can be directed to the Open Data team of the MF4 department at OpenData@rki.de.

Data collection

In AMELAG, technical guidelines were developed based on the handouts for sampling and laboratory analysis created as part of the ESI-CorA project. The raw data of the SARS-CoV-2 samples analyzed in the ESI-CorA project are reused in AMELAG and included in the evaluated data. Raw wastewater samples are generally collected twice a week at each participating WWTP, along with essential parameters such as volume flow, pH value, and temperature. These parameters are necessary for normalization and quality assurance. Where possible, the raw sewage samples should be taken after the grit chamber of the WWTP. A 24-hour composite sample is collected using an automatic sampler. The 24-hour samples are usually taken from Mondays to Tuesdays, and from Wednesdays to Thursdays. As a rule, one liter of the sample is filled into sample bottles and sent to the analysis laboratory. In the laboratory, the viral nucleic acid is concentrated, extracted and the viral gene sequences are quantified by digital PCR (dPCR) or quantitative real-time PCR (qRT-PCR). For SARS-CoV-2, at least two representative gene fragments (preferably N1, N2, E, ORF or RdRp) are determined, for the Influenza virus only one gene fragment (M1 for Influenza A Virus and M1, NS1, NS2 or HA for Influenza B Virus).

Robert Koch Institute, Department 32 (2024): "ESI-CorA: SARS-CoV-2 wastewater surveillance" [Dataset]. Zenodo. DOI: 10.5281/zenodo.10781653

Data flow

Data flow AMELAG

At the UBA, metadata on the WWTPs and the laboratories as well as the regularly collected monitoring data are centrally stored and processed further in a web application, the PiA-Monitor (Pathogens in Wastewater). The monitoring data to be collected regularly from the WWTP and the data of the laboratories are merged and imported into the database by the data providers via the web application. The UBA, the RKI and the federal states can access the data within the scope of their respective rights.

Plausibility check and further processing of the data

A plausibility check is run on the data as they are imported. The formats, completeness of the information (mandatory fields), value ranges of the monitoring data, plausibility of the dates and compliance with stored metadata are checked. Only data records that successfully pass the quality check are imported into the database. For SARS-CoV-2, the geometric mean of the viral load (gene copies/L) is then determined from the two or more measured target genes.

Normalization procedure

A varying wastewater composition, e.g. due to irregular industrial influences or heavy rainfall events, can lead to changing concentrations of SARS-CoV-2. To take these external influences into account, the measured viral load can be normalized. In AMELAG, normalization of the SARS-CoV-2 data is performed according to flow rate. The dry weather inflow of the WWTP is the reference. The following formula was used:

$$ Gene{normalized} = {Q{KA_current}}/{Q{KA_median}} \cdot Gene{averaged} $$

where:

Normalization is automated with the data import. The measured Influenza data are currently not normalized as the normalization does not show an imporved data quality for influenza viruses.

Data evaluation

The data are evaluated at the RKI using R scripts. The scripts are contained in the context materials. A detailed description of the methodology is provided in the technical guidelines. The results are published in the RKI´s weekly report. For each WWTP, the measured values for SARS-CoV-2 (normalized) and Inlfuenza A and B viruses (not normalized) are reported in gene copies per liter (gene copies/L). In addition, the measured values of the logarithmized normalized gene copies are smoothed using a locally weighted regression (LOESS) and associated confidence intervals are calculated.

A trend is calculated for SARS-CoV-2. The trend for a WWTP results from the change in the value estimated by the LOESS method on a Wednesday of a week compared to the value predicted for the previous Wednesday, whereby the values were previously transformed back to the original scale.

Aggregation of the WWTP values

The individual time series of the WWTP are aggregated in order to depict a nationwide course of the SARS-CoV-2 and Influenzavirus viral loads in wastewater. For each week in which measured values are available for at least 10 sites, the average of the logarithmized measured values of the individual sites averaged over one week is calculated. This value is then weighted by the number of inhabitants connected to the WWTPs. The influenza data are currently not weighted by the number of inhabitants.

Notes on data evaluation

Some things to take into account when evaluating the data:

Limitations

Wastewater data do not allow conclusions to be drawn about disease severity or the burden on the healthcare system. At present, it is not possible to draw precise conclusions about incidence/prevalence or underreporting from wastewater data. When assessing a sitaution epidemiologically, the data should always be considered in combination with other indicators, such as those from syndromic surveillance. Absolute viral loads cannot be compared directly to the number of infected persons, especially over longer periods of time, as, for example, the amount of virus excreted per infected person can differ between different virus variants. The values determined are influenced by a variety of factors (e.g. changes in the wastewater supply, heavy rainfall events, or tourist events), which can only be partially compensated for by normalization. The time delay from sampling to transmission and further publication by the RKI can take up to two weeks.

Content and structure of the dataset

The AMELAG dataset provides data and contextual material on SARS-CoV-2 detections in wastewater. The data collected in the project are available for individual sites and as aggregated time series.

The dataset also contains:

Data for individual WWTP

The file amelag_einzelstandorte.tsv contains the normalized SARS-CoV-2 and not normalized influenza virus viral load data for the individual sites.

amelag_einzelstandorte.tsv

Variables and variable values

The file amelag_einzelstandorte.tsv contains the variables and their characteristics shown in the following table:

Variable Type Characteristic Description
standort Text Location where the wastewater treatment plant is located.
bundesland Text BB, BE, BW, BY, HB, HE, HH, MV, NI, NW, RP, SH, SL, SN, ST, TH Federal state (abbreviated) in which the wastewater treatment plant is located.
datum Date yyyy-mm-dd or NA Date on which the 24-hour composite sample started in the wastewater treatment plant.
viruslast Floating point number ≥0 or NA Measured SARS-CoV-2 viral load in gene copies per liter.
loess_vorhersage Floating point number ≥0 or NA The viral loads predicted using a LOESS regression (optimized using GCV criterion for the 10s logarithmized viral loads).
loess_obere_schranke Floating point number ≥0 or NA Upper bound of the pointwise 95% confidence interval of the LOESS predicted value.
loess_untere_schranke Floating point number ≥0 or NA Lower bound of the point-wise 95% confidence interval of the LOESS predicted value.
loess_aenderung Floating point number ≥0 or NA Change in the LOESS predicted value compared to the previous week, i.e. quotient of the current value and the previous week's value.
einwohner Natural number ≥0 or NA Inhabitants connected to the site's sewage treatment plant.
laborwechsel Text ja, nein or NA Changes in laboratory or changes in the methods.
trend Text increasing, decreasing, unchanged, no data available, NA Categorized change in the smoothed LOESS value from a Wednesday to the Wednesday of the previous week (see data evaluation)
normalisierung Text ja, nein or NA Values are normalized by flowrate.
typ Text SARS-CoV-2, Influenza A, Influenza B or Influenza A+B Virus type.
unter_bg Text ja, nein or NA At least half of the measured Genes are under the limit of quantification.

Data aggregated across all WWTP

In the file amelag_aggregated_curve.tsv contains the time series of the SARS-CoV-2 and influenza virus viral loads on an aggregated or nationwide level.

amelag_aggregierte_kurve.tsv

Variables and variable characteristics

The file amelag_aggregierte_kurve.tsv contains the variables and their values shown in the following table:

Variable Type Characteristic Description
datum Date yyyy-mm-dd date of the Wednesday of a week
n Natural number ≥0 Number of locations that have transmitted at least one measured value in the period defined by "date".
anteil_bev Floating point number ≥0 or NA Proportion of the total population in Germany that is connected to the transmitting sewage treatment plants.
viruslast Floating point number ≥0 or NA SARS-CoV-2 viral load in gene copies per liter averaged over all sites and weighted by connected inhabitants of the wastewater treatment plants. Before averaging across the sites, all measured values of the sites in the last 7 days were transformed using the logarithm of 10 and averaged across the individual sites. The indicated viral load is the mean value transformed back to the original scale.
loess_vorhersage Floating point number ≥0 or NA The viral loads predicted using a LOESS regression, transformed back to the original scale.
loess_obere_schranke Floating point number ≥0 Upper bound of the 95% confidence interval of the LOESS predicted value.
loess_untere_schranke Floating point number ≥0 Lower bound of the 95% confidence interval of the LOESS predicted value.
normalisierung Text ja, nein or NA Individual time series are normalized by flowrate.
typ Text SARS-CoV-2, Influenza A, Influenza B or Influenza A+B Virus type.

Context materials

To reproduce the results of the AMELAG weekly report, the R scripts used to create the analysis are provided. The scripts can be found in the "Contextual materials" folder of the dataset.

Context Matrials

Metadata

To increase findability, the provided data are described with metadata. The Metadata are distributed to the relevant platforms via GitHub Actions. There is a specific metadata file for each platform; these are stored in the metadata folder:

Metadaten/

Versioning and DOI assignment are performed via Zenodo.org. The metadata prepared for import into Zenodo are stored in the zenodo.json. Documentation of the individual metadata variables can be found at https://developers.zenodo.org/representation.

Metadaten/zenodo.json

The zenodo.json includes the publication date and the date of the data status in the following format (example):

  "publication_date": "2024-06-19",
  "dates": [
    {
      "start": "2023-09-11T15:00:21+02:00",
      "end": "2023-09-11T15:00:21+02:00",
      "type": "Collected",
      "description": "Date when the Dataset was created"
    }
  ],

Guidelines for Reuse of the Data

Open data from the RKI are available on Zenodo.org, GitHub.com, OpenCoDE, and Edoc.rki.de:

License

The "Abwassersurveillance AMELAG" dataset is licensed under the Creative Commons Attribution 4.0 International Public License | CC-BY.

The data provided in the dataset are freely available, with the condition of attributing the Robert Koch Institute as the source, for anyone to process and modify, create derivatives of the dataset and use them for commercial and non-commercial purposes.
Further information about the license can be found in the LICENSE or LIZENZ file of the dataset.