Survey for classification models

groovy-phazuma commented 9 months ago

実装・ベンチマーク対象とする手法の調査

せっかくなので馴染みがないような手法にも挑戦したい。 ImageNetでの性能: https://paperswithcode.com/sota/image-classification-on-imagenet

ResNet ベースラインか
DenseNet ベースラインか
ViT グラフとの相性も良くて後学のためにも是非
gradcam 任意のCNNモデルに後付けできるという理解？要調査。
lion imagenetのスコアでSOTA

KatsuhisaMorita commented 9 months ago

SSLで比較に用いたCNNモデルは

ResNet
EfficientNet
Regnet
densenet
convnext の5つで、torchvisionにて実装されている (https://pytorch.org/vision/stable/models.html)

GradCamは任意のCNNでgradを逆計算足し合わせしてヒートマップを得ることが可能。（SSL病理画像で実装したことあり）

KatsuhisaMorita commented 9 months ago

月の"シルエット"を認識したい場合、ViTがその性質にあっている月の"テクスチャ"を認識したい場合、CNNがよさそう。ヒトの認識性はシルエットによっているので、ViTの方がより直感にはあっている。参考: https://qiita.com/wakayama_90b/items/e2c9f5e65aec08ffc122

モデルは動かせるようにしつつ、

Model architectures
1. ViT (本命、transformerのbaseline)
2. Swin Transformer (ViTの改善版らしい)
3. ResNet (CNN baseline)
4. ConvNext (ResNetよりいろいろ改善したもの) の4つ程度を用いればよいのではないか。
解釈性
1. Attentionを用いる（transformer系）
2. GradCam（そこそこスタンダード）
3. RISE（領域系のスタンダード）

このあたりか問題なければcloseお願いします。

groovy-phazuma commented 9 months ago

あざす。確認しました。

groovy-phazuma / Moon_Pattern_Inference

Survey for classification models #6

実装・ベンチマーク対象とする手法の調査