Open fulfulggg opened 7 hours ago
マルチモーダル大規模言語モデル(MLLM)は著しい進歩を遂げましたが、その計算コストの高さが、実世界での展開における障壁となっています。自然言語処理における深さの混合(MoD)に着想を得て、私たちは「活性化トークン」の観点からこの制限に対処することを目指します。私たちの重要な洞察は、ほとんどのトークンが層計算にとって冗長である場合、MoD層を介して直接スキップできるということです。ただし、MLLMの密な層をMoD層に直接変換すると、パフォーマンスが大幅に低下します。この問題に対処するために、既存のMLLM向けの革新的なMoD適応戦略であるgamma-MoDを提案します。gamma-MoDでは、MLLMにおけるMoDの展開をガイドするために、アテンションマップのランク(ARank)という新しいメトリックが提案されています。ARankを使用すると、どの層が冗長であり、MoD層に置き換える必要があるかを効果的に特定できます。ARankに基づいて、パフォーマンスを維持しながらMLLMの計算のスパース性を最大化する2つの新しい設計、共有ビジョン言語ルーターとマスクルーティング学習をさらに提案します。これらの設計により、MLLMの90%以上の密な層をMoD層に効果的に変換できます。私たちの方法を検証するために、3つの一般的なMLLMに適用し、9つのベンチマークデータセットで大規模な実験を行いました。実験結果は、既存のMLLMに対するgamma-MoDの効率性の利点を検証するだけでなく、さまざまなMLLMに対するその一般化能力を確認します。たとえば、-1.5%というわずかなパフォーマンス低下で、gamma-MoDはLLaVA-HRのトレーニング時間と推論時間をそれぞれ31.0%と53.2%短縮できます。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: γ-MoD: マルチモーダル大規模言語モデルのための深さ混合適応の探求
リンク: https://arxiv.org/abs/2410.13859
概要:
マルチモーダル大規模言語モデル(MLLM)は著しい進歩を遂げましたが、その計算コストの高さが、実世界での展開における障壁となっています。自然言語処理における深さの混合(MoD)に着想を得て、私たちは「活性化トークン」の観点からこの制限に対処することを目指します。私たちの重要な洞察は、ほとんどのトークンが層計算にとって冗長である場合、MoD層を介して直接スキップできるということです。ただし、MLLMの密な層をMoD層に直接変換すると、パフォーマンスが大幅に低下します。この問題に対処するために、既存のMLLM向けの革新的なMoD適応戦略であるgamma-MoDを提案します。gamma-MoDでは、MLLMにおけるMoDの展開をガイドするために、アテンションマップのランク(ARank)という新しいメトリックが提案されています。ARankを使用すると、どの層が冗長であり、MoD層に置き換える必要があるかを効果的に特定できます。ARankに基づいて、パフォーマンスを維持しながらMLLMの計算のスパース性を最大化する2つの新しい設計、共有ビジョン言語ルーターとマスクルーティング学習をさらに提案します。これらの設計により、MLLMの90%以上の密な層をMoD層に効果的に変換できます。私たちの方法を検証するために、3つの一般的なMLLMに適用し、9つのベンチマークデータセットで大規模な実験を行いました。実験結果は、既存のMLLMに対するgamma-MoDの効率性の利点を検証するだけでなく、さまざまなMLLMに対するその一般化能力を確認します。たとえば、-1.5%というわずかなパフォーマンス低下で、gamma-MoDはLLaVA-HRのトレーニング時間と推論時間をそれぞれ31.0%と53.2%短縮できます。