tkuri / papers

Summarizing the papers I have read (Japanese)
41 stars 1 forks source link

Swin Transformer V2: Scaling Up Capacity and Resolution #516

Open tkuri opened 1 year ago

tkuri commented 1 year ago

論文概要

Swin Transformerを30億パラメータまで拡張し1,536×1,536の解像度の画像を学習可能に。様々なベンチマークでSOTA。学習における不安定性を解決するためにモデルを改良(Layer Normの順番、Cosine Attentionの導入等)。更にGPUのメモリ消費量を大幅に削減する実装方法を提案。

bib_20220908 00 https://openaccess.thecvf.com/content/CVPR2022/html/Liu_Swin_Transformer_V2_Scaling_Up_Capacity_and_Resolution_CVPR_2022_paper.html

Code

https://github.com/microsoft/Swin-Transformer