AdversarialAttacks / .github

0 stars 0 forks source link

Recherche #3

Closed gabrieltorresgamez closed 8 months ago

gabrieltorresgamez commented 9 months ago

Informieren, was Adversarial Attacks sind, relevante Themen finden und mögliche Fragestellungen definieren. Mögliche Fragestellungen sollten gesammelt werden.

Liste erstellen der potentiellen Fragestellung die wir erarbeiten möchten und Feedback einholen.

gabrieltorresgamez commented 8 months ago

Ideensammlung Fragestellung

Idee 1

Beispielsarchitektur bei der Analyse von Transferierbarkeit auf Image Captioning Systemen. Idea 1 IDEA1.drawio.zip

Mögliche Spezifizierung

Mögliche Unterfragen

Mögliche ähnliche Studien https://arxiv.org/abs/1809.02861 https://arxiv.org/abs/2112.14337 https://arxiv.org/abs/1905.02675 https://doi.org/10.1109/ICCMC56507.2023.10084164

Idee 2

Mögliche Unterfragen

gabrieltorresgamez commented 8 months ago

Idee 3

Können die Analyse und der Vergleich adversarieller Polytopen zwischen verschiedenen Modellen genutzt werden, um gemeinsame Schwachstellen zu identifizieren?

Image

Mögliche Unterfragen

Ressourcen https://github.com/eth-sri/diffai https://arxiv.org/abs/1903.12519 https://www.youtube.com/watch?v=fiqcI1d9AnQ https://www.youtube.com/watch?v=1_gkY6pGWFs

7ben18 commented 8 months ago

Idee 4

Generieren mittels einem Bild Klassifikation Datensatz X1 eine Universelle Pertubation in einem Modell Y1. Anschliessend die Universelle Pertubation auf Datensatz X2 verwenden für das gleiche Modell Y1 oder anderes Modell Y2.

Mögliche Unterfragen:

Ressourcen: https://arxiv.org/pdf/1801.08092.pdf Moosavi-Dezfooli_Universal_Adversarial_Perturbations_CVPR_2017_paper.pdf

gabrieltorresgamez commented 8 months ago

Idee 5

Wie anfällig sind die Weights bei vortainierten PyTorch Modellen auf Adversarial Attacks? (Benchmark)

Mögliche Unterfragen

gabrieltorresgamez commented 8 months ago

Idee 6

Kann man Adversarial Attacks auf Face Recognition Systeme erkennen, bei welchen der Angreifer nur Zugriff auf die eine Kamera hat?

gabrieltorresgamez commented 8 months ago

Idee 4.1

Kann eine universelle adversarial Noise erstellt werden, welche mehrere Modelle und mehrere Datensätze betrifft?

Use-Case (Wer kann alles davon betroffen werden?)

Sehr viele potenzielle Gefahren, hier einige mögliche:

Daten

ImageNet
Medizinische Bilder
Verkehrs Bild

Modellarchitekturen

Datensatz Modell 1 Modell 2 Modell 3 Modell 4 Modell 5 Modell 6
ImageNet X X X X X X
Medizin F F F S S S
Verkehrs Bilder F F F S S S

X = Pretrained F = Fine Tuned S = Self Trained

Evaluationsprotokoll

Die Evaluierung erfolgt indem wir:

Was passiert bei Annahme der These?

Was passiert bei Ablehnung der These?

gabrieltorresgamez commented 8 months ago

Idee 4.2

Ein Krankheits- oder Krebserkennungssystem, das auf MRI Scans oder Röntgenbilder basiert, kann vor den Auswirkungen universeller adversarial Perturbationen geschützt werden.

Potenzielle Unterfragen

Use-Case (Wer kann alles davon betroffen sein?)

Evaluationsprotokoll

  1. Datensatzauswahl und -vorbereitung

  2. Modelltraining

    • Training verschiedener Deep-Learning-Modelle unter Verwendung der ausgewählten Datensätze.
  3. Generierung von adversarial Perturbationen

    • Entwicklung von universellen adversarial Perturbationen, zugeschnitten auf die trainierten Modelle und Datensätze.
    • Entwicklung von bildspezifischen adversarial Perturbationen.
    • Dokumentation des Generierungsprozesses und Publizierung auf HuggingFace für Reproduzierbarkeit.
  4. Evaluierung der Modellrobustheit

    • Messung der Baseline-Modellleistungen (z.B. Recall, Präzision, ROC) ohne adversarial Einfluss.
    • Anwendung der Perturbationen auf ungeschützte Modelle und Messung der Leistungsveränderung, besonders des Recall-Wertes.
  5. Implementierung von Defense-Strategien

    • Adversarial Training: Training der Modelle mit einem Mix aus originalen und mit adversarial Perturbationen modifizierten Daten.
    • Universelle Pertubationen werden vom Gesamten Datensatz generiert oder eine Teilmenge davon.
    • Spezifische Pertubationen werden spezifisch auf einem Bild generiert, damit diese Fehlklassifiziert wird.
      • Universelle Perturbationen: Einsatz im Training zur Verbesserung der Modellresilienz gegenüber universellen Angriffen.
      • Spezifische Perturbationen: Zusätzliches Training mit spezifisch generierten Perturbationen für eine gezielte Abwehr (Smoothing der Decision Surface (Carlini: On Evaluating Adversarial Robustness, 19:40)) .
    • Untersuchung zusätzlicher Ansätze die zur Verbesserung der Modellrobustheit beitragen können. (Box-Relation Training)
  6. Statistische Analyse und Evaluierungskriterien

    Evaluierung der Modellleistung:

    • Baseline-Leistung: Festlegung einer Baseline durch Messung der Modellleistung ohne adversarial Einfluss.
    • Leistungsvergleich (Ungeschützt vs. Geschützt):
      • Ungeschützte Modelle: Anwendung der adversarial Perturbationen und Bewertung der Leistungseinbussen.
      • Geschützte Modelle: Anwendung der adverseral Perturbationen auf Modelle mit Defense-Strategien und Vergleich der Leistungsveränderungen.

    Definition der Kriterien für Effektivitätsbewertung:

    • Der Grad der Leistungsreduktion in ungeschützten Modellen dient als Indikator für die Anfälligkeit.
    • Eine signifikant geringere Leistungsreduktion in geschützten Modellen zeigt die Wirksamkeit der Defense-Strategien an.
    • Statistische Tests (z.B. gepaarter t-Test) werden eingesetzt, um die Signifikanz der Unterschiede zwischen den Leistungsreduktionen von ungeschützten und geschützten Modellen zu evaluieren.
  7. Dokumentation und Empfehlungen

    • Zusammenfassung der Erkenntnisse über die Wirksamkeit der untersuchten Verteidigungsmechanismen.
    • Formulierung praxisorientierter Empfehlungen zur Implementierung effektiver Defense-Strategien in medizinischen Diagnosesystemen.

Potenzielle nächste Schritte bei Annahme der These?

Potenzielle nächste Schritte bei Ablehnung der These?

Universelle Pertubationen wurden ja schon in diesem Paper bewiesen, würden wir jetzt keine "guten" (siehe Hypothesentest) Defences finden würden wir wie folgt fortfahren:

stepheugarden commented 8 months ago

Idee 4.2

Ein Krankheits- oder Krebserkennungssystem, das auf MRI- oder CT-Scans basiert, kann vor den Auswirkungen universeller adversarial Perturbationen geschützt werden.

Potenzielle Unterfragen

* Welche Rolle spielen Techniken wie Data Augmentation, adversarial Training und Modellensembles bei der Verbesserung der Robustheit von Krankheits-/Krebserkennungssystemen?

=> adversarial examples sind oft transferierbar, deshalb sind Ensembles vermutlich nicht die alles erschlagende Antwort

* Welche spezifischen Formen von adversarial Training zeigen die grösste Wirksamkeit gegenüber universellen Perturbationen in Krankheits-/Krebserkennungssystemen?

Die Frage habe ich noch nicht verstanden

* Wie beeinflusst die Kombination verschiedener Modelle in Ensembles die Anfälligkeit oder Widerstandsfähigkeit gegenüber universellen adversarial Pertubationen?

* Welche präventiven Massnahmen können in medizinischen Einrichtungen implementiert werden, um die Risiken von adversarial Angriffen zu minimieren?

habt ihr euch hier schon informiert mit Papers, Bibliotheken?

* Wie kann die Erklärbarkeit und Interpretierbarkeit der Modelle im Trainingsprozess helfen, Anfälligkeiten gegenüber universellen adversarial Pertubationen zu reduzieren?

guter Punkt. Hier passen viele Folgefragen rein (falls euch die Arbeit zu früh ausginge ;-))

Use-Case (Wer kann alles davon betroffen sein?)

* Durch das gezielte Einbringen von universeller adversarial Pertubationen in CT- oder MRI-Systeme könnten Hacker die automatisierten Diagnosehilfen manipulieren. Dies könnte, besonders wenn ein Arzt die Ergebnisse nicht sorgfältig prüft, zu fehlerhaften Diagnosen führen, wie zum Beispiel der Übersehung von Krebs oder anderen Anomalien.

Evaluationsprotokoll

1. **Datensatzauswahl und -vorbereitung**

   * Auswahl repräsentativer Datensätze wie zum Beispiel: [RSNA Breast Cancer Detection](https://www.kaggle.com/datasets/theoviel/rsna-breast-cancer-1024-pngs), [COVIDx CXR-4](https://www.kaggle.com/datasets/andyczhao/covidx-cxr2/data), [Brain Tumor Classification (MRI)](https://www.kaggle.com/datasets/sartajbhuvaji/brain-tumor-classification-mri).

Möchtet ihr mehrere Datensätze evaluieren oder bei einem bleiben?

  1. Modelltraining

    • Training verschiedener Deep-Learning-Modelle unter Verwendung der ausgewählten Datensätze.
  2. Generierung von adversarial Perturbationen

    • Entwicklung von universellen adversarial Perturbationen, zugeschnitten auf die trainierten Modelle und Datensätze.
    • Entwicklung von bildspezifischen adversarial Perturbationen.
    • Dokumentation des Generierungsprozesses und Publizierung auf HuggingFace für Reproduzierbarkeit.
  3. Evaluierung der Modellrobustheit

    • Messung der Baseline-Modellleistungen (z.B. Recall, Präzision, ROC) ohne adversarial Einfluss.
    • Anwendung der Perturbationen auf ungeschützte Modelle und Messung der Leistungsveränderung, besonders des Recall-Wertes.
  4. Implementierung von Defense-Strategien

    • Adversarial Training: Training der Modelle mit einem Mix aus originalen und mit adversarial Perturbationen modifizierten Daten. evtl. hier auch Box-relaxation-Training

      • Universelle Perturbationen: Einsatz im Training zur Verbesserung der Modellresilienz gegenüber universellen Angriffen.
      • Spezifische Perturbationen: Zusätzliches Training mit spezifisch generierten Perturbationen für eine gezielte Abwehr (Smoothing der Decision Surface (Carlini: On Evaluating Adversarial Robustness, 19:40)) . was heisst das genau? Wenn ich es richtig verstanden habe, sagt er, dass die "beste" Variante ist adversarial Training. Oder geht es euch um Visualisierungen?
    • Untersuchung zusätzlicher Ansätze die zur Verbesserung der Modellrobustheit beitragen können. Z.B. weitere Modellattacken untersuchen (Ablation Study wenn neben universal perturbation auch FGSM, PGD, etc.)
  5. Statistische Analyse und Evaluierungskriterien Evaluierung der Modellleistung:

    • Baseline-Leistung: Festlegung einer Baseline durch Messung der Modellleistung ohne adversarial Einfluss.

    • Leistungsvergleich (Ungeschützt vs. Geschützt): heisst geschützt: ihr hattet das Modell robustifiziert durch adv. attacks und jetzt versucht ihr hier eine neue Attacke zu lancieren?

      • Ungeschützte Modelle: Anwendung der adversarial Perturbationen und Bewertung der Leistungseinbussen.
      • Geschützte Modelle: Anwendung der gleichen Perturbationen auf Modelle mit Defense-Strategien und Vergleich der Leistungsveränderungen.

      Definition der Kriterien für Effektivitätsbewertung:

    • Der Grad der Leistungsreduktion in ungeschützten Modellen dient als Indikator für die Anfälligkeit.

    • Eine signifikant geringere Leistungsreduktion in geschützten Modellen zeigt die Wirksamkeit der Defense-Strategien an.

    • Statistische Tests (z.B. gepaarter t-Test) werden eingesetzt, um die Signifikanz der Unterschiede zwischen den Leistungsreduktionen von ungeschützten und geschützten Modellen zu evaluieren. oder Chi-Square Test?

  6. Dokumentation und Empfehlungen

    • Zusammenfassung der Erkenntnisse über die Wirksamkeit der untersuchten Verteidigungsmechanismen.
    • Formulierung praxisorientierter Empfehlungen zur Implementierung effektiver Defense-Strategien in medizinischen Diagnosesystemen.

Potenzielle nächste Schritte bei Annahme der These?

* Detailliertere Untersuchung und Dokumentation der Angriffe und Verteidigungsmechanismen.

* Analyse (evtl. sogar Interviews) über die Risiken solcher Attacken und dessen Wahrscheinlichkeiten.

* Interview mit einem Arzt, ob er/sie diese Pertubationen erkennen kann. (qualitativ und nur falls diese Pertubationen gross sind)

Potenzielle nächste Schritte bei Ablehnung der These?

Universelle Pertubationen wurden ja schon in diesem Paper bewiesen, würden wir jetzt keine "guten" (siehe Hypothesentest) Defences finden würden wir wie folgt fortfahren:

* Die Angriffe genau dokumentieren.

* Analyse der aktuell bekannten Defence Strategien und inwiefern sie nicht wirken.

* Sensibilieserung des Problemes und recherche über die Risiken und Wahrscheinlichkeiten dieser Attacken.

Super Sprint! Die Idee finden Daniel und ich spannend, da hat es einiges an offenen Punkten, an welchen ihr wirken könnt. Wir sollten schauen, dass wir die Projektvereinbarung generisch genug formulieren, so dass es im Fall der Fälle noch genügend Folgefragen gibt, an denen ihr arbeiten könnt. Das schaffen wir aber!

gabrieltorresgamez commented 8 months ago

Wir verfolgen Idee 4.2. Siehe Projektvereinbarung für mehr Infos.