Closed takachino closed 3 months ago
LLaVA-OneVisionは、LLaVA-NeXTブログシリーズでのデータ、モデル、視覚表現に関する洞察を統合して開発されたオープンな大規模多モーダルモデル(LMM)のファミリーです。実験結果によれば、LLaVA-OneVisionは、単一のモデルで、重要なコンピュータビジョンシナリオである単一画像、複数画像、ビデオシナリオの性能限界を同時に押し上げることができる最初のモデルであることが示されています。LLaVA-OneVisionの設計により、異なるモダリティ/シナリオ間で強力な転移学習が可能となり、新たな能力が現れています。特に、画像からビデオへのタスク転移を通じて、強力なビデオ理解とクロスシナリオ機能が示されています。
@offloading が以下のラベルを提案し、適用しました:
LLaVA-OneVisionは、複数のデータ・モデルを統合して開発された大規模多モーダルモデルであり、単一画像、複数画像、ビデオシナリオでの性能を同時に向上させることができる初のモデルである。異なるモダリティ間での強力な転移学習を可能にし、特に画像からビデオへのタスク転移において優れた性能を示している。
タイトル: LLaVA-OneVision: 簡単なビジュアルタスクの転送
リンク: https://arxiv.org/abs/2408.03326
概要:
LLaVA-OneVisionは、LLaVA-NeXTブログシリーズでのデータ、モデル、視覚表現に関する洞察を統合して開発されたオープンな大規模多モーダルモデル(LMM)のファミリーです。実験結果によれば、LLaVA-OneVisionは、単一のモデルで、重要なコンピュータビジョンシナリオである単一画像、複数画像、ビデオシナリオの性能限界を同時に押し上げることができる最初のモデルであることが示されています。LLaVA-OneVisionの設計により、異なるモダリティ/シナリオ間で強力な転移学習が可能となり、新たな能力が現れています。特に、画像からビデオへのタスク転移を通じて、強力なビデオ理解とクロスシナリオ機能が示されています。