確率的層単位シャッフル：Vision Mambaトレーニングを改善するグッドプラクティス

fulfulggg commented 1 week ago

タイトル: 確率的層単位シャッフル：Vision Mambaトレーニングを改善するグッドプラクティス

リンク: https://arxiv.org/abs/2408.17081

概要:

近年の Vision Mamba モデルは、高解像度画像や長尺動画を処理するための計算量が Vision Transformer (ViT) に比べて大幅に少ないだけでなく、同等の性能も実現しています。しかし、過学習に陥りやすく、現状ではベースサイズ（約8,000万パラメータ）までしか拡張できていません。Vision Mamba (Vim) をより大きなサイズに効率的にスケールアップする方法、そしてその潜在能力を最大限に引き出す方法は、まだ明らかになっていません。本論文では、確率的な層ごとのシャッフル正則化を提案します。これにより、教師あり学習において、非階層的な Vision Mamba を大規模サイズ（約3億パラメータ）にスケールアップすることに成功しました。具体的には、ベースモデルと大規模な ShuffleMamba モデルは、補助データなしで ImageNet1k において、同程度のサイズの教師あり ViT よりもそれぞれ 0.8% と 1.0% 高い分類精度を達成しました。ADE20K セマンティックセグメンテーションと COCO 物体検出のタスクでも、ShuffleMamba モデルは大幅な改善を示しました。この確率的な層ごとのシャッフルは、特別な工夫を凝らさずに以下の利点があります。(1) プラグアンドプレイ: モデルの構造を変更せず、推論時には省略されます。(2) シンプルだが効果的: Vim の学習における過学習を改善し、ランダムなトークン並べ替え操作のみを導入します。(3) 直感的: より深い層のトークンシーケンスは、よりセマンティックでパッチの位置に影響を受けにくいと予想されるため、シャッフルされる可能性が高くなります。コードとモデルは https://github.com/huangzizheng01/ShuffleMamba で公開予定です。

fulfulggg commented 1 week ago

論文要約

論文要約: 確率的層単位シャッフルでVision Mambaの学習を改善

Vision Mamba (Vim) は高性能な画像認識モデル だが、過学習しやすく、大規模化が難しいという課題があった。
本論文では 「確率的層単位シャッフル」 という新しい正則化手法を提案。
- 各層のトークンを確率的にシャッフルすることで過学習を抑制する。
- 深い層ほどシャッフルされる確率が高くなるように設計されている。
この手法により、 Vim を約3億パラメータの大規模モデルにスケールアップすることに成功 。
ImageNet1k 画像分類において、従来の ViT よりも高い精度を達成。
ADE20K セマンティックセグメンテーション や COCO 物体検出 でも有効性が確認された。
利点:
- 実装が簡単 (プラグアンドプレイ)。
- シンプルながら効果的。
- 深い層ほどシャッフルする設計に理論的根拠がある。

ポイント

従来の Vision Mamba の課題を克服し、大規模化と高精度化を両立。
画像認識のみならず、セグメンテーションや物体検出といった様々なタスクにも応用可能。

fulfulggg commented 1 week ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

image-classification
model-compression
paper-implementation

fulfulggg / Information-gathering