[17] Membership Inference Attacks Against Machine Learning Models

Membership Inference : 해당 데이터가 모델의 training data에 있는지 없는지 확인하는 공격. 가령 의료데이터의 경우에 특정 데이터가 학습 데이터로 존재한다는 것만으로도 심각한 프라이버시 유출이 될 수 있음.
이러한 공격의 가정은 아래와 같음. 1) 공격을 하는 모델은 다중 분류 모델이라고 가정 2) ML as Service로 input과 output을 얻을 수 있음. 3) 공격하고자 하는 모델의 트레이닝 데이터셋의 일부를 알고 있음.
Membership Inference Attack의 알고리즘은 아래와 같음.

(1) 실제 모델(target model)의 결과값을 따라하는 shadow 모델들을 정의함.(target model의 아키텍쳐를 안다면 똑같이 만듦) (2) 알고있는 트레이닝 데이터를 겹치지 않게 subset을 만들고, 각각을 shadow 모델들로 학습함. (3) 전체 데이터셋에 대하여 실제 레이블값, shadow 모델의 예측값을 input으로 주고 해당 shadow 모델의 해당 데이터 샘플이 존재했는지("in", "out") 분류하는 attack model을 학습함.

results : 대부분의 데이터에서 높은 precision, recall. membership attack은 black box(모델을 모르고, 데이터셋에 대한 prior assumption이 틀렸을 때도) 환경에서도 잘 작동함.

confidence가 member, non-member일 때 확실히 다름.

long8v / PTIR

[17] Membership Inference Attacks Against Machine Learning Models #17