γ-MoD: マルチモーダル大規模言語モデルのための深さ混合適応の探求

fulfulggg commented 7 hours ago

タイトル: γ-MoD: マルチモーダル大規模言語モデルのための深さ混合適応の探求

リンク: https://arxiv.org/abs/2410.13859

概要:

マルチモーダル大規模言語モデル（MLLM）は著しい進歩を遂げましたが、その計算コストの高さが、実世界での展開における障壁となっています。自然言語処理における深さの混合（MoD）に着想を得て、私たちは「活性化トークン」の観点からこの制限に対処することを目指します。私たちの重要な洞察は、ほとんどのトークンが層計算にとって冗長である場合、MoD層を介して直接スキップできるということです。ただし、MLLMの密な層をMoD層に直接変換すると、パフォーマンスが大幅に低下します。この問題に対処するために、既存のMLLM向けの革新的なMoD適応戦略であるgamma-MoDを提案します。gamma-MoDでは、MLLMにおけるMoDの展開をガイドするために、アテンションマップのランク（ARank）という新しいメトリックが提案されています。ARankを使用すると、どの層が冗長であり、MoD層に置き換える必要があるかを効果的に特定できます。ARankに基づいて、パフォーマンスを維持しながらMLLMの計算のスパース性を最大化する2つの新しい設計、共有ビジョン言語ルーターとマスクルーティング学習をさらに提案します。これらの設計により、MLLMの90％以上の密な層をMoD層に効果的に変換できます。私たちの方法を検証するために、3つの一般的なMLLMに適用し、9つのベンチマークデータセットで大規模な実験を行いました。実験結果は、既存のMLLMに対するgamma-MoDの効率性の利点を検証するだけでなく、さまざまなMLLMに対するその一般化能力を確認します。たとえば、-1.5％というわずかなパフォーマンス低下で、gamma-MoDはLLaVA-HRのトレーニング時間と推論時間をそれぞれ31.0％と53.2％短縮できます。

fulfulggg commented 7 hours ago

論文要約

論文要約: γ-MoD: マルチモーダル大規模言語モデルのための深さ混合適応の探求

背景: マルチモーダル大規模言語モデル (MLLM) は高性能だが、計算コストが高い。
課題: MLLMの計算コストを削減し、実用性を高める。
提案手法 (γ-MoD):
- 自然言語処理で用いられる深さ混合 (MoD) をMLLMに適用。
- 多くのトークンは計算に不要であるという洞察に基づき、MoD層を介してスキップすることで計算量を削減。
- 単純なMoD層への置き換えでは性能が低下するため、アテンションマップのランク (ARank) という指標を導入。
- ARankを用いて冗長な層を特定し、MoD層に置き換えることで、性能低下を抑えつつ計算量を削減。
- ARankに基づき、共有ビジョン言語ルーターとマスクルーティング学習という2つの設計を提案し、MoD層への効率的な置き換えを実現。
効果:
- MLLMの90%以上の層をMoD層に置き換え可能。
- 例として、LLaVA-HRで学習時間と推論時間をそれぞれ31%、53.2%短縮。
貢献:
- MLLMの計算コスト問題に対し、MoDを用いた効果的な解決策を提案。
- ARank、共有ビジョン言語ルーター、マスクルーティング学習といった新規技術を開発。
今後の展望:
- 提案手法を他のMLLMにも適用し、有効性を検証。
- より効率的なMoD層の設計を探索。

fulfulggg commented 7 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

efficient-ml
llm
multi-modal-learning

fulfulggg / Information-gathering