Open mei28 opened 1 year ago
id: "1679612601-vision-transformer-adapter-for-dense-predictions" aliases:
https://arxiv.org/abs/2205.08534 https://github.com/czczup/ViT-Adapter
ICLR23
ViTモデルを利用する
外部データなして,ViT Adapter-LはSOTAを達成(COCOに対して)
ImageNet22K-1Kとかで事前学習するとSOTA
対抗手法Swinが対抗手法(2023論文)
(通常ViTでは)ViTに入れるため,16x16のパッチに分割する
対して,ViTAdapterではAdapter層を通すので柔軟に対応できる
MMDetection, COCO datasetに基づいて実験
Mask R-CNN, Cascade Mask R-CNN, ATSS, GFLを対抗手法として実験.
実験エポック数は12or36
AdamW 10^-4, weight decay 0.05
batchsize 16
Semantic segmentation: ADE20K, MMSegmentationに基づいて実験
FPN, UperNetをフレームワークとして採用
80k or 160k イテレーションで学習
multi-scale IoUで評価
対SOTA実験
HTC++,Mask2Formerと比較して実験
Ablation studyないでA100 GPUを使った実験を行っている
比較した実験のコード,そのパラメータをきちんと書いている.
id: "1679612601-vision-transformer-adapter-for-dense-predictions" aliases:
"TSUNDOKU"
Vision Transformer Adapter for Dense Predictions
一言で言うと
論文リンク
https://arxiv.org/abs/2205.08534 https://github.com/czczup/ViT-Adapter
ICLR23
著者/所属機関
-
投稿日付(yyyy/MM/dd)
先行研究と比べてどこがすごい?
技術・手法のキモはどこ?
どうやって有効だと検証した?
コメント
次はなに読む?
論文中
ViTモデルを利用する
外部データなして,ViT Adapter-LはSOTAを達成(COCOに対して)
ImageNet22K-1Kとかで事前学習するとSOTA
対抗手法Swinが対抗手法(2023論文)
(通常ViTでは)ViTに入れるため,16x16のパッチに分割する
対して,ViTAdapterではAdapter層を通すので柔軟に対応できる
MMDetection, COCO datasetに基づいて実験
Mask R-CNN, Cascade Mask R-CNN, ATSS, GFLを対抗手法として実験.
実験エポック数は12or36
AdamW 10^-4, weight decay 0.05
batchsize 16
Semantic segmentation: ADE20K, MMSegmentationに基づいて実験
FPN, UperNetをフレームワークとして採用
80k or 160k イテレーションで学習
multi-scale IoUで評価
対SOTA実験
HTC++,Mask2Formerと比較して実験
Ablation studyないでA100 GPUを使った実験を行っている
論文中
比較した実験のコード,そのパラメータをきちんと書いている.