fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

確率的層単位シャッフル:Vision Mambaトレーニングを改善するグッドプラクティス #193

Open fulfulggg opened 1 week ago

fulfulggg commented 1 week ago

タイトル: 確率的層単位シャッフル:Vision Mambaトレーニングを改善するグッドプラクティス

リンク: https://arxiv.org/abs/2408.17081

概要:

近年の Vision Mamba モデルは、高解像度画像や長尺動画を処理するための計算量が Vision Transformer (ViT) に比べて大幅に少ないだけでなく、同等の性能も実現しています。しかし、過学習に陥りやすく、現状ではベースサイズ(約8,000万パラメータ)までしか拡張できていません。Vision Mamba (Vim) をより大きなサイズに効率的にスケールアップする方法、そしてその潜在能力を最大限に引き出す方法は、まだ明らかになっていません。本論文では、確率的な層ごとのシャッフル正則化を提案します。これにより、教師あり学習において、非階層的な Vision Mamba を大規模サイズ(約3億パラメータ)にスケールアップすることに成功しました。具体的には、ベースモデルと大規模な ShuffleMamba モデルは、補助データなしで ImageNet1k において、同程度のサイズの教師あり ViT よりもそれぞれ 0.8% と 1.0% 高い分類精度を達成しました。ADE20K セマンティックセグメンテーションと COCO 物体検出のタスクでも、ShuffleMamba モデルは大幅な改善を示しました。この確率的な層ごとのシャッフルは、特別な工夫を凝らさずに以下の利点があります。(1) プラグアンドプレイ: モデルの構造を変更せず、推論時には省略されます。(2) シンプルだが効果的: Vim の学習における過学習を改善し、ランダムなトークン並べ替え操作のみを導入します。(3) 直感的: より深い層のトークンシーケンスは、よりセマンティックでパッチの位置に影響を受けにくいと予想されるため、シャッフルされる可能性が高くなります。コードとモデルは https://github.com/huangzizheng01/ShuffleMamba で公開予定です。

fulfulggg commented 1 week ago

論文要約

論文要約: 確率的層単位シャッフルでVision Mambaの学習を改善

ポイント

fulfulggg commented 1 week ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: