Open yukihiko-fuyuki opened 1 month ago
LLaVA-NeXT ブログシリーズで得られたデータ、モデル、視覚表現に関する知見を統合し、オープンな大規模マルチモーダルモデル (LMM) のファミリーである LLaVA-OneVision を開発しました。実験の結果、LLaVA-OneVision は、単一画像、複数画像、動画の 3 つの重要なコンピュータビジョンシナリオにおいて、オープン LMM の性能限界を同時に押し上げる最初の単一モデルであることが示されました。重要なことに、LLaVA-OneVision の設計により、異なるモダリティ/シナリオ間での強力な転移学習が可能になり、新たな機能が生まれています。特に、画像から動画へのタスク転移を通じて、強力な動画理解とクロスシナリオ機能が実証されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
つまり、LLaVA-OneVisionは、画像や動画を問わず、様々な視覚情報を理解できる、より汎用性の高いAIモデルと言える。
タイトル: LLaVA-OneVision: 簡単な視覚タスク転移
リンク: https://arxiv.org/abs/2408.03326
概要:
LLaVA-NeXT ブログシリーズで得られたデータ、モデル、視覚表現に関する知見を統合し、オープンな大規模マルチモーダルモデル (LMM) のファミリーである LLaVA-OneVision を開発しました。実験の結果、LLaVA-OneVision は、単一画像、複数画像、動画の 3 つの重要なコンピュータビジョンシナリオにおいて、オープン LMM の性能限界を同時に押し上げる最初の単一モデルであることが示されました。重要なことに、LLaVA-OneVision の設計により、異なるモダリティ/シナリオ間での強力な転移学習が可能になり、新たな機能が生まれています。特に、画像から動画へのタスク転移を通じて、強力な動画理解とクロスシナリオ機能が実証されています。