long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[17] Membership Inference Attacks Against Machine Learning Models #17

Open long8v opened 2 years ago

long8v commented 2 years ago
image

paper

(1) 실제 모델(target model)의 결과값을 따라하는 shadow 모델들을 정의함.(target model의 아키텍쳐를 안다면 똑같이 만듦) (2) 알고있는 트레이닝 데이터를 겹치지 않게 subset을 만들고, 각각을 shadow 모델들로 학습함. (3) 전체 데이터셋에 대하여 실제 레이블값, shadow 모델의 예측값을 input으로 주고 해당 shadow 모델의 해당 데이터 샘플이 존재했는지("in", "out") 분류하는 attack model을 학습함.

image

results : 대부분의 데이터에서 높은 precision, recall. membership attack은 black box(모델을 모르고, 데이터셋에 대한 prior assumption이 틀렸을 때도) 환경에서도 잘 작동함.

image

confidence가 member, non-member일 때 확실히 다름.

image