Informieren, was Adversarial Attacks sind, relevante Themen finden und mögliche Fragestellungen definieren. Mögliche Fragestellungen sollten gesammelt werden.

Liste erstellen der potentiellen Fragestellung die wir erarbeiten möchten und Feedback einholen.

Ideensammlung Fragestellung

Idee 1

Transferieren Adversarial Attacks auf Modelle, die durch Transfer Learning auf einem vortrainierten Image Classification Modell basieren?

Beispielsarchitektur bei der Analyse von Transferierbarkeit auf Image Captioning Systemen. Idea 1 IDEA1.drawio.zip

Mögliche Spezifizierung

Transferieren Adversarial Attacks auf Image Captioning Modelle, die durch Transfer Learning auf einem vortrainierten Vision Transformer Modell basieren?

Mögliche Unterfragen

Inwiefern können die Schwächen des zugrunde liegenden Image Classification Modell auf das Transfer-Learning-Modell übertragen werden?
Gibt es spezifische Merkmale oder Schichten im Image Classification Modell, die besonders anfällig für Adversarial Noise sind und sich auf das Transfer-Learning-Modell auswirken?
Wie lässt sich die Sicherheit und Robustheit von Transfer-Learning-Modellen verbessern, um gegenüber Angriffen mit Adversarial Noise widerstandsfähiger zu sein?

Idee 2

~~Kann Reinforcement Learning eingesetzt werden, um Noise für einen adversarialen Angriff auf ein Blackbox Image Classification Modell zu generieren?~~

~~Mögliche Unterfragen~~

~~Inwiefern unterscheidet sich die Effektivität von Reinforcement Learning im Vergleich zu anderen Methoden zur Generierung von adversarialem Noise?~~
~~Welche Auswirkungen hat die Wahl der Belohnungsfunktion auf die Leistung von Reinforcement Learning bei der Generierung von Noise für adversariale Angriffe?~~
Welche potenziellen Vorteile bietet die Verwendung von Reinforcement Learning im Vergleich zu anderen Ansätzen zur Generierung von Noise für adversariale Angriffe auf Blackbox Image Classification Modelle?

Idee 3

Können die Analyse und der Vergleich adversarieller Polytopen zwischen verschiedenen Modellen genutzt werden, um gemeinsame Schwachstellen zu identifizieren?

Mögliche Unterfragen

In wiefern sind diese gemeinsamen Schwachstellen in Modellen von PyTorch, eines der beliebtesten DL Frameworks, vorhanden?
Kann mit dieser Analyse bewiesen werden, dass komplexere Modelle robuster gegen Adversarial Attacks sind?
Konvergiert die Carlini & Wagner Attacken oft gegen diesen Raum?

Ressourcen https://github.com/eth-sri/diffai https://arxiv.org/abs/1903.12519 https://www.youtube.com/watch?v=fiqcI1d9AnQ https://www.youtube.com/watch?v=1_gkY6pGWFs

Idee 4

Generieren mittels einem Bild Klassifikation Datensatz X1 eine Universelle Pertubation in einem Modell Y1. Anschliessend die Universelle Pertubation auf Datensatz X2 verwenden für das gleiche Modell Y1 oder anderes Modell Y2.

Mögliche Unterfragen:

In wiefern lassen sich die Pertubationen auf unterschiedlich grosse und kleine Modelle generalisieren?
Spielt der Datensatz für die Erstellung der Pertubation eine Rolle? Könnte man auch nur mit den Weights und Bias eine Universelle Pertubation erzeugen?
Welche Verteidigungsstrategien gibt es für Universelle Pertubationen?

Ressourcen: https://arxiv.org/pdf/1801.08092.pdf Moosavi-Dezfooli_Universal_Adversarial_Perturbations_CVPR_2017_paper.pdf

Idee 5

Wie anfällig sind die Weights bei vortainierten PyTorch Modellen auf Adversarial Attacks? (Benchmark)

Mögliche Unterfragen

Kann man approximieren, wie viele Modelle betroffen sind?
Könnten besser Weights implementiert werden?
Änfälligkeit von Adverserial Attacks auf PyTorch vortrainierte Weights und eigenen trainierten Weights

Idee 6

~~Kann man Adversarial Attacks auf Face Recognition Systeme erkennen, bei welchen der Angreifer nur Zugriff auf die eine Kamera hat?~~

Idee 4.1

Kann eine universelle adversarial Noise erstellt werden, welche mehrere Modelle und mehrere Datensätze betrifft?

Use-Case (Wer kann alles davon betroffen werden?)

Sehr viele potenzielle Gefahren, hier einige mögliche:

Durch das Einbringen von gezieltem adversarial Noise in CT- oder MRI-Systeme könnten Hacker die automatisierten Diagnosehilfen manipulieren. Dies könnte, besonders wenn ein Arzt die Ergebnisse nicht sorgfältig prüft, zu fehlerhaften Diagnosen führen, wie z.B. Übersehung eines Krebses oder Erkennung von nicht vorhandenen Anomalien.
Es besteht die potenzielle Gefahr beim autonomen Fahren, dass Fahrzeuge, Strasenschilder, Ampeln und andere Verkehrseinrichtungen durch universellen adversarial Noise beeinflusst werden könnten. Dies beeinbträchtigt die Fähigkeit des autonomen Fahrzeugs, seine Umgebung korrekt wahrzunehmen und angemessen zu reagieren. Solche Angriffe könnten schwerwiegende Folgen auf die Sicherheit des Verkehrs haben.

Daten

ImageNet

ImageNet da die Weights und Bias von PyTorch Modellen auf diese Trainiert wurden.

Medizinische Bilder

Medizinische Bilder, um Use-Case von Diagnosen abzudecken

Verkehrs Bild

Verkehrs Bilder, um den Use-Case von Autonomen Fahren abzudecken

Modellarchitekturen

Wir entscheiden uns für 6 Modell Architekturen um Bilder zu Klassifizieren.
Für den ImageNet Datensatz nehmen wir die vortrainierten Gewichte
Für Medizin und Verkehrs Datensatz, finetunen wir 3 Modelle darauf und 3 Modelle trainieren wir selber.

Datensatz	Modell 1	Modell 2	Modell 3	Modell 4	Modell 5	Modell 6
ImageNet	X	X	X	X	X	X
Medizin	F	F	F	S	S	S
Verkehrs Bilder	F	F	F	S	S	S

X = Pretrained F = Fine Tuned S = Self Trained

Evaluationsprotokoll

Die Erstellung der Universal Pertubation benötigt eine gewisse Anzahl an Input Bilder [Quelle, S.6/11, Figure 6] und wird durch ein Modell erstellt.
Der Fooling Ratio ist ein relativer Wert der Aussagt, wie viel % der Bilder durch die Pertubation die Klasse geändert haben.

Die Evaluierung erfolgt indem wir:

Von jedem Modell wird eine Universelle Pertubation erstellt. Anschliessend werden die Universelle Pertubation Modellübergreifend getestet auf jeden Datensatz. Dies ergibt eine Tabelle mit: 6 Modelle X 6 Modelle X 3 Datensatz = 108 Werten.
Eine weitere Evaluierung ist, ob die Anzahl an Input Bilder einen Einfluss auf den Fooling Ratio hat. Bsp: 5000 Bilder, 10000 Bilder, 15000 Bilder etc...

Was passiert bei Annahme der These?

Unter der Annahme, dass die Universal Noise sowohl auf das Modell als auch auf den Datensatz generalisierbar ist, können wir ein selbst trainiertes Modell und einen Datensatz auswählen, um das Modell robuster zu machen. Wir können dies erreichen, indem wir Adversarial Training durchführen und dabei Universal Adversarial Perturbations verwenden.

Was passiert bei Ablehnung der These?

Idee 4.2

Ein Krankheits- oder Krebserkennungssystem, das auf MRI Scans oder Röntgenbilder basiert, kann vor den Auswirkungen universeller adversarial Perturbationen geschützt werden.

Potenzielle Unterfragen

Welche Rolle spielen Techniken wie Data Augmentation, adversarial Training und Modellensembles bei der Verbesserung der Robustheit von Krankheits-/Krebserkennungssystemen?
Welche spezifischen Formen von adversarial Training zeigen die grösste Wirksamkeit gegenüber universellen Perturbationen in Krankheits-/Krebserkennungssystemen? (Siehe Evaluationsprotkoll Kapitel 5)
Wie beeinflusst die Kombination verschiedener Modelle in Ensembles die Anfälligkeit oder Widerstandsfähigkeit gegenüber universellen adversarial Pertubationen?
Welche präventiven Massnahmen können in medizinischen Einrichtungen implementiert werden, um die Risiken von adversarial Angriffen zu minimieren?
Wie kann die Erklärbarkeit und Interpretierbarkeit der Modelle im Trainingsprozess helfen, Anfälligkeiten gegenüber universellen adversarial Pertubationen zu reduzieren?

Use-Case (Wer kann alles davon betroffen sein?)

Durch das gezielte Einbringen von universeller adversarial Pertubationen in Röntgenbilder- oder MRI-Systeme könnten Hacker die automatisierten Diagnosehilfen manipulieren. Dies könnte, besonders wenn ein Arzt die Ergebnisse nicht sorgfältig prüft, zu fehlerhaften Diagnosen führen, wie zum Beispiel der Übersehung von Krebs oder anderen Anomalien.

Evaluationsprotokoll

Datensatzauswahl und -vorbereitung
- Auswahl mehrere repräsentativer Datensätze wie zum Beispiel: COVIDx CXR-4, Brain Tumor Classification (MRI).
Modelltraining
- Training verschiedener Deep-Learning-Modelle unter Verwendung der ausgewählten Datensätze.
Generierung von adversarial Perturbationen
- Entwicklung von universellen adversarial Perturbationen, zugeschnitten auf die trainierten Modelle und Datensätze.
- Entwicklung von bildspezifischen adversarial Perturbationen.
- Dokumentation des Generierungsprozesses und Publizierung auf HuggingFace für Reproduzierbarkeit.
Evaluierung der Modellrobustheit
- Messung der Baseline-Modellleistungen (z.B. Recall, Präzision, ROC) ohne adversarial Einfluss.
- Anwendung der Perturbationen auf ungeschützte Modelle und Messung der Leistungsveränderung, besonders des Recall-Wertes.
Implementierung von Defense-Strategien
- Adversarial Training: Training der Modelle mit einem Mix aus originalen und mit adversarial Perturbationen modifizierten Daten.
- Universelle Pertubationen werden vom Gesamten Datensatz generiert oder eine Teilmenge davon.
- Spezifische Pertubationen werden spezifisch auf einem Bild generiert, damit diese Fehlklassifiziert wird.
  - Universelle Perturbationen: Einsatz im Training zur Verbesserung der Modellresilienz gegenüber universellen Angriffen.
  - Spezifische Perturbationen: Zusätzliches Training mit spezifisch generierten Perturbationen für eine gezielte Abwehr (Smoothing der Decision Surface (Carlini: On Evaluating Adversarial Robustness, 19:40)) .
- Untersuchung zusätzlicher Ansätze die zur Verbesserung der Modellrobustheit beitragen können. (Box-Relation Training)
Statistische Analyse und Evaluierungskriterien

Evaluierung der Modellleistung:
- Baseline-Leistung: Festlegung einer Baseline durch Messung der Modellleistung ohne adversarial Einfluss.
- Leistungsvergleich (Ungeschützt vs. Geschützt):
  - Ungeschützte Modelle: Anwendung der adversarial Perturbationen und Bewertung der Leistungseinbussen.
  - Geschützte Modelle: Anwendung der adverseral Perturbationen auf Modelle mit Defense-Strategien und Vergleich der Leistungsveränderungen.
Definition der Kriterien für Effektivitätsbewertung:
- Der Grad der Leistungsreduktion in ungeschützten Modellen dient als Indikator für die Anfälligkeit.
- Eine signifikant geringere Leistungsreduktion in geschützten Modellen zeigt die Wirksamkeit der Defense-Strategien an.
- Statistische Tests (z.B. gepaarter t-Test) werden eingesetzt, um die Signifikanz der Unterschiede zwischen den Leistungsreduktionen von ungeschützten und geschützten Modellen zu evaluieren.
Dokumentation und Empfehlungen
- Zusammenfassung der Erkenntnisse über die Wirksamkeit der untersuchten Verteidigungsmechanismen.
- Formulierung praxisorientierter Empfehlungen zur Implementierung effektiver Defense-Strategien in medizinischen Diagnosesystemen.

Potenzielle nächste Schritte bei Annahme der These?

Detailliertere Untersuchung und Dokumentation der Angriffe und Verteidigungsmechanismen.
Analyse (evtl. sogar Interviews) über die Risiken solcher Attacken und dessen Wahrscheinlichkeiten.
Interview mit einem Arzt, ob er/sie diese Pertubationen erkennen kann. (qualitativ und nur falls diese Pertubationen gross sind)

Potenzielle nächste Schritte bei Ablehnung der These?

Universelle Pertubationen wurden ja schon in diesem Paper bewiesen, würden wir jetzt keine "guten" (siehe Hypothesentest) Defences finden würden wir wie folgt fortfahren:

Die Angriffe genau dokumentieren.
Analyse der aktuell bekannten Defence Strategien und inwiefern sie nicht wirken.
Sensibilieserung des Problemes und recherche über die Risiken und Wahrscheinlichkeiten dieser Attacken.

Idee 4.2

Ein Krankheits- oder Krebserkennungssystem, das auf MRI- oder CT-Scans basiert, kann vor den Auswirkungen universeller adversarial Perturbationen geschützt werden.

Potenzielle Unterfragen
* Welche Rolle spielen Techniken wie Data Augmentation, adversarial Training und Modellensembles bei der Verbesserung der Robustheit von Krankheits-/Krebserkennungssystemen?
=> adversarial examples sind oft transferierbar, deshalb sind Ensembles vermutlich nicht die alles erschlagende Antwort
* Welche spezifischen Formen von adversarial Training zeigen die grösste Wirksamkeit gegenüber universellen Perturbationen in Krankheits-/Krebserkennungssystemen?
Die Frage habe ich noch nicht verstanden
* Wie beeinflusst die Kombination verschiedener Modelle in Ensembles die Anfälligkeit oder Widerstandsfähigkeit gegenüber universellen adversarial Pertubationen?

* Welche präventiven Massnahmen können in medizinischen Einrichtungen implementiert werden, um die Risiken von adversarial Angriffen zu minimieren?
habt ihr euch hier schon informiert mit Papers, Bibliotheken?
* Wie kann die Erklärbarkeit und Interpretierbarkeit der Modelle im Trainingsprozess helfen, Anfälligkeiten gegenüber universellen adversarial Pertubationen zu reduzieren?
guter Punkt. Hier passen viele Folgefragen rein (falls euch die Arbeit zu früh ausginge ;-))

Use-Case (Wer kann alles davon betroffen sein?)
* Durch das gezielte Einbringen von universeller adversarial Pertubationen in CT- oder MRI-Systeme könnten Hacker die automatisierten Diagnosehilfen manipulieren. Dies könnte, besonders wenn ein Arzt die Ergebnisse nicht sorgfältig prüft, zu fehlerhaften Diagnosen führen, wie zum Beispiel der Übersehung von Krebs oder anderen Anomalien.
Evaluationsprotokoll
1. **Datensatzauswahl und -vorbereitung**

   * Auswahl repräsentativer Datensätze wie zum Beispiel: [RSNA Breast Cancer Detection](https://www.kaggle.com/datasets/theoviel/rsna-breast-cancer-1024-pngs), [COVIDx CXR-4](https://www.kaggle.com/datasets/andyczhao/covidx-cxr2/data), [Brain Tumor Classification (MRI)](https://www.kaggle.com/datasets/sartajbhuvaji/brain-tumor-classification-mri).
Möchtet ihr mehrere Datensätze evaluieren oder bei einem bleiben?

Modelltraining

Training verschiedener Deep-Learning-Modelle unter Verwendung der ausgewählten Datensätze.

Generierung von adversarial Perturbationen

Entwicklung von universellen adversarial Perturbationen, zugeschnitten auf die trainierten Modelle und Datensätze.

Entwicklung von bildspezifischen adversarial Perturbationen.

Dokumentation des Generierungsprozesses und Publizierung auf HuggingFace für Reproduzierbarkeit.

Evaluierung der Modellrobustheit

Messung der Baseline-Modellleistungen (z.B. Recall, Präzision, ROC) ohne adversarial Einfluss.

Anwendung der Perturbationen auf ungeschützte Modelle und Messung der Leistungsveränderung, besonders des Recall-Wertes.

Implementierung von Defense-Strategien

Adversarial Training: Training der Modelle mit einem Mix aus originalen und mit adversarial Perturbationen modifizierten Daten. evtl. hier auch Box-relaxation-Training

Universelle Perturbationen: Einsatz im Training zur Verbesserung der Modellresilienz gegenüber universellen Angriffen.

Spezifische Perturbationen: Zusätzliches Training mit spezifisch generierten Perturbationen für eine gezielte Abwehr (Smoothing der Decision Surface (Carlini: On Evaluating Adversarial Robustness, 19:40)) . was heisst das genau? Wenn ich es richtig verstanden habe, sagt er, dass die "beste" Variante ist adversarial Training. Oder geht es euch um Visualisierungen?

Untersuchung zusätzlicher Ansätze die zur Verbesserung der Modellrobustheit beitragen können. Z.B. weitere Modellattacken untersuchen (Ablation Study wenn neben universal perturbation auch FGSM, PGD, etc.)

Statistische Analyse und Evaluierungskriterien Evaluierung der Modellleistung:

Baseline-Leistung: Festlegung einer Baseline durch Messung der Modellleistung ohne adversarial Einfluss.

Leistungsvergleich (Ungeschützt vs. Geschützt): heisst geschützt: ihr hattet das Modell robustifiziert durch adv. attacks und jetzt versucht ihr hier eine neue Attacke zu lancieren?

Ungeschützte Modelle: Anwendung der adversarial Perturbationen und Bewertung der Leistungseinbussen.

Geschützte Modelle: Anwendung der gleichen Perturbationen auf Modelle mit Defense-Strategien und Vergleich der Leistungsveränderungen.

Definition der Kriterien für Effektivitätsbewertung:

Der Grad der Leistungsreduktion in ungeschützten Modellen dient als Indikator für die Anfälligkeit.

Eine signifikant geringere Leistungsreduktion in geschützten Modellen zeigt die Wirksamkeit der Defense-Strategien an.

Statistische Tests (z.B. gepaarter t-Test) werden eingesetzt, um die Signifikanz der Unterschiede zwischen den Leistungsreduktionen von ungeschützten und geschützten Modellen zu evaluieren. oder Chi-Square Test?

Dokumentation und Empfehlungen

Zusammenfassung der Erkenntnisse über die Wirksamkeit der untersuchten Verteidigungsmechanismen.

Formulierung praxisorientierter Empfehlungen zur Implementierung effektiver Defense-Strategien in medizinischen Diagnosesystemen.

Potenzielle nächste Schritte bei Annahme der These?
* Detailliertere Untersuchung und Dokumentation der Angriffe und Verteidigungsmechanismen.

* Analyse (evtl. sogar Interviews) über die Risiken solcher Attacken und dessen Wahrscheinlichkeiten.

* Interview mit einem Arzt, ob er/sie diese Pertubationen erkennen kann. (qualitativ und nur falls diese Pertubationen gross sind)
Potenzielle nächste Schritte bei Ablehnung der These?

Universelle Pertubationen wurden ja schon in diesem Paper bewiesen, würden wir jetzt keine "guten" (siehe Hypothesentest) Defences finden würden wir wie folgt fortfahren:
* Die Angriffe genau dokumentieren.

* Analyse der aktuell bekannten Defence Strategien und inwiefern sie nicht wirken.

* Sensibilieserung des Problemes und recherche über die Risiken und Wahrscheinlichkeiten dieser Attacken.

Super Sprint! Die Idee finden Daniel und ich spannend, da hat es einiges an offenen Punkten, an welchen ihr wirken könnt. Wir sollten schauen, dass wir die Projektvereinbarung generisch genug formulieren, so dass es im Fall der Fälle noch genügend Folgefragen gibt, an denen ihr arbeiten könnt. Das schaffen wir aber!

Wir verfolgen Idee 4.2. Siehe Projektvereinbarung für mehr Infos.

AdversarialAttacks / .github

Recherche #3

Ideensammlung Fragestellung

Idee 1

Idee 2

Idee 3

Idee 4

Idee 5

Idee 6

Idee 4.1

Use-Case (Wer kann alles davon betroffen werden?)

Daten

ImageNet

Medizinische Bilder

Verkehrs Bild

Modellarchitekturen

Evaluationsprotokoll

Was passiert bei Annahme der These?

Was passiert bei Ablehnung der These?

Idee 4.2

Potenzielle Unterfragen

Use-Case (Wer kann alles davon betroffen sein?)

Evaluationsprotokoll

Potenzielle nächste Schritte bei Annahme der These?

Potenzielle nächste Schritte bei Ablehnung der These?

Idee 4.2

Potenzielle Unterfragen

Use-Case (Wer kann alles davon betroffen sein?)

Evaluationsprotokoll

Potenzielle nächste Schritte bei Annahme der These?

Potenzielle nächste Schritte bei Ablehnung der These?