robert-koch-institut / SARS-CoV-2-Sequenzdaten_aus_Deutschland

Ein zentraler Bestandteil einer erfolgreichen Erregersurveillance ist das Verständnis der Verbreitung eines Erregers sowie seiner pathogenen Eigenschaften. Hierbei stellt das Wissen über das Erregergenom eine wichtige Informationsquelle dar. So erlaubt der Nachweis von Mutationen im Genom eines Erregers, Verwandtschaftsbeziehungen zu rekonstruie...
https://robert-koch-institut.github.io/SARS-CoV-2-Sequenzdaten_aus_Deutschland/
Creative Commons Attribution 4.0 International
67 stars 7 forks source link

Kontaktdaten der Labore zugänglich machen? #20

Closed lenaschimmel closed 2 years ago

lenaschimmel commented 2 years ago

Es scheint mir, dass die Information, welches Labor eine Probe sequenziert hat, nur indirekt vorhanden ist, durch die DEMIS-Lab-ID als Teil der IMS-ID jeder Sequenz, und durch die Angabe der Postleitzahl.

Die Zuordnung von DEMIS-Lab-ID zur tatsächlichen Bezeichnung des Labors (z.B. Name, Adresse, Kontaktmöglichkeit) konnte ich weder in diesem Repository, noch sonst irgendwo online finden.

Ist diese Information absichtlich "geheim", oder dürfte sie prinzipiell öffentlich sein oder ist es bereits? Fall möglich, möchte ich darum bitten, die Zuordnung zu veröffentlichen oder mitzuteilen, wo sie bereits öffentlich ist.

Hintergrund meiner Frage

Wenn eine spezifische Sequenz beachtenswert erscheint (z.B. da sie vermutlich eine bisher unbekannte Rekombinante darstellt) kann es nötig sein, weitere Informationen dazu einzuholen. Das könnten z.B. die "Raw Reads" sein, um echte Rekombinanten von Konterminationen oder Doppelinfektionen zu unterscheiden. Soweit ich weiß, sind diese nicht auf GitHub bzw. im Sequenzdatenhub gesammelt, sondern liegen nur dem sequenzierenden Labor vor.

Bei Sequenzen, die auf GISAID veröffentlich werden, liegen die Kontaktdaten der Labore vor und werden von Wissenschafter_innen u.A. zu genau diesem Zweck genutzt.

Bei Sequenzen, die nur hier vorliegen, aber (noch) nicht auf GISAID, oder für Menschen ohne GISAID-Zugang, ist es somit unmöglich, das Labor zu kontaktieren.

cuehs commented 2 years ago

@lenaschimmel Die Veröffentlichung der Daten eines Labors und die Zuordnung zu Sequenzdaten ist prinzipiell nicht schützenswert. Wir haben uns hier allerdings bewusst entschieden die Daten der Labore nicht zu veröffentlichen.

Zu den Gründen:

Da Rohdaten auch mit menschlicher DNA verunreinigt sein können dürfen wir Rohdaten auch für die Fälle in denen sie vorliegen nicht direkt veröffentlichen. Daher halten auch die Labore diese Daten in den meisten Fällen nicht länger als nötig vor.