CLIP과 같은 vision-language pretraining 방법이 최근 좋은 성능을 보이고 있는데, 병리쪽은 데이터 수가 적고 이미지(WSI)의 크기가 매우 커서 적용이 어렵다는 문제가 있음
논문의 저자들은 WSI에 적용하기 위해 image encoder에 MIL을 적용한 방법인 MI-Zero를 제안하고, 직접 구축한 33480개의 (WSI, caption) pair 데이터셋으로 학습하여 zero-shot capability가 있다는 것을 실험을 통해 보였음
요약하자면, WSI에 vision language pretraining을 적용하기 위한 데이터셋 구축, MIL 적용 및 실험을 통한 검증이 본 논문의 핵심임
Review
Supervised baseline에는 ABMIL을 썼는데, MI-Zero에는 topK / mean pooling MIL를 쓴게 fair한 비교가 되는지에 대한 의문이 들었음 (MIL 방법은 동일하게 놓고 비교했어야하지 않을까...)
Image encoder를 from scratch로 학습했을 때는 성능이 거의 나오지 않는 것을 보면, pretrained weight가 성능에 미치는 영향이 매우 큰 것으로 보이고, 성능이 제일 좋았던 CTransPath SSL이 사실상 MI-Zero의 성능을 끌어올린것으로 보임
Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images
TL;DR
Review