Sunwood-ai-labs / Yukihiko

Fusion of Python and GIMP
MIT License
5 stars 4 forks source link

LLaVA-OneVision: 簡単な視覚タスク転移 #94

Open yukihiko-fuyuki opened 1 month ago

yukihiko-fuyuki commented 1 month ago

タイトル: LLaVA-OneVision: 簡単な視覚タスク転移

リンク: https://arxiv.org/abs/2408.03326

概要:

LLaVA-NeXT ブログシリーズで得られたデータ、モデル、視覚表現に関する知見を統合し、オープンな大規模マルチモーダルモデル (LMM) のファミリーである LLaVA-OneVision を開発しました。実験の結果、LLaVA-OneVision は、単一画像、複数画像、動画の 3 つの重要なコンピュータビジョンシナリオにおいて、オープン LMM の性能限界を同時に押し上げる最初の単一モデルであることが示されました。重要なことに、LLaVA-OneVision の設計により、異なるモダリティ/シナリオ間での強力な転移学習が可能になり、新たな機能が生まれています。特に、画像から動画へのタスク転移を通じて、強力な動画理解とクロスシナリオ機能が実証されています。

yukihiko-fuyuki commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

yukihiko-fuyuki commented 1 month ago

論文要約

LLaVA-OneVision: 簡単な視覚タスク転移 論文要約

つまり、LLaVA-OneVisionは、画像や動画を問わず、様々な視覚情報を理解できる、より汎用性の高いAIモデルと言える。