fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

γ-MoD: マルチモーダル大規模言語モデルのための深さ混合適応の探求 #508

Open fulfulggg opened 7 hours ago

fulfulggg commented 7 hours ago

タイトル: γ-MoD: マルチモーダル大規模言語モデルのための深さ混合適応の探求

リンク: https://arxiv.org/abs/2410.13859

概要:

マルチモーダル大規模言語モデル(MLLM)は著しい進歩を遂げましたが、その計算コストの高さが、実世界での展開における障壁となっています。自然言語処理における深さの混合(MoD)に着想を得て、私たちは「活性化トークン」の観点からこの制限に対処することを目指します。私たちの重要な洞察は、ほとんどのトークンが層計算にとって冗長である場合、MoD層を介して直接スキップできるということです。ただし、MLLMの密な層をMoD層に直接変換すると、パフォーマンスが大幅に低下します。この問題に対処するために、既存のMLLM向けの革新的なMoD適応戦略であるgamma-MoDを提案します。gamma-MoDでは、MLLMにおけるMoDの展開をガイドするために、アテンションマップのランク(ARank)という新しいメトリックが提案されています。ARankを使用すると、どの層が冗長であり、MoD層に置き換える必要があるかを効果的に特定できます。ARankに基づいて、パフォーマンスを維持しながらMLLMの計算のスパース性を最大化する2つの新しい設計、共有ビジョン言語ルーターとマスクルーティング学習をさらに提案します。これらの設計により、MLLMの90%以上の密な層をMoD層に効果的に変換できます。私たちの方法を検証するために、3つの一般的なMLLMに適用し、9つのベンチマークデータセットで大規模な実験を行いました。実験結果は、既存のMLLMに対するgamma-MoDの効率性の利点を検証するだけでなく、さまざまなMLLMに対するその一般化能力を確認します。たとえば、-1.5%というわずかなパフォーマンス低下で、gamma-MoDはLLaVA-HRのトレーニング時間と推論時間をそれぞれ31.0%と53.2%短縮できます。

fulfulggg commented 7 hours ago

論文要約

論文要約: γ-MoD: マルチモーダル大規模言語モデルのための深さ混合適応の探求

fulfulggg commented 7 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: