Open fulfulggg opened 3 months ago
過去1年間で、マルチモーダル大規模言語モデル(MLLM)は、視覚質問応答、視覚理解、推論などのタスクにおいて目覚ましい性能を示してきました。しかし、モデルサイズが大きく、トレーニングと推論のコストが高いことが、産業界や学術界におけるMLLMの普及を妨げてきました。そのため、特にエッジコンピューティングの分野では、効率的で軽量なMLLMの研究が大きな可能性を秘めています。本稿では、効率的なMLLMの現状について、包括的かつ体系的なレビューを行います。具体的には、代表的な効率的なMLLMの年表、効率的な構造と戦略の研究状況、およびアプリケーションについてまとめます。最後に、現在の効率的なMLLM研究の限界と、将来有望な方向性について議論します。詳細は、GitHubリポジトリ(https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey)をご覧ください。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
この論文は、複数の情報タイプ(例:テキスト、画像)を理解できるAIである マルチモーダル大規模言語モデル (MLLM) の効率化に焦点を当てています。
要点:
要点補足:
詳細:
タイトル: 効率的なマルチモーダル大規模言語モデル:サーベイ
リンク: https://arxiv.org/abs/2405.10739
概要:
過去1年間で、マルチモーダル大規模言語モデル(MLLM)は、視覚質問応答、視覚理解、推論などのタスクにおいて目覚ましい性能を示してきました。しかし、モデルサイズが大きく、トレーニングと推論のコストが高いことが、産業界や学術界におけるMLLMの普及を妨げてきました。そのため、特にエッジコンピューティングの分野では、効率的で軽量なMLLMの研究が大きな可能性を秘めています。本稿では、効率的なMLLMの現状について、包括的かつ体系的なレビューを行います。具体的には、代表的な効率的なMLLMの年表、効率的な構造と戦略の研究状況、およびアプリケーションについてまとめます。最後に、現在の効率的なMLLM研究の限界と、将来有望な方向性について議論します。詳細は、GitHubリポジトリ(https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey)をご覧ください。