Open tkuri opened 1 year ago
Swin Transformerを30億パラメータまで拡張し1,536×1,536の解像度の画像を学習可能に。様々なベンチマークでSOTA。学習における不安定性を解決するためにモデルを改良(Layer Normの順番、Cosine Attentionの導入等)。更にGPUのメモリ消費量を大幅に削減する実装方法を提案。
https://openaccess.thecvf.com/content/CVPR2022/html/Liu_Swin_Transformer_V2_Scaling_Up_Capacity_and_Resolution_CVPR_2022_paper.html
https://github.com/microsoft/Swin-Transformer
論文概要
Swin Transformerを30億パラメータまで拡張し1,536×1,536の解像度の画像を学習可能に。様々なベンチマークでSOTA。学習における不安定性を解決するためにモデルを改良(Layer Normの順番、Cosine Attentionの導入等)。更にGPUのメモリ消費量を大幅に削減する実装方法を提案。
https://openaccess.thecvf.com/content/CVPR2022/html/Liu_Swin_Transformer_V2_Scaling_Up_Capacity_and_Resolution_CVPR_2022_paper.html
Code
https://github.com/microsoft/Swin-Transformer