Openstory++: インスタンスを意識したオープンエンドなビジュアルストーリーテリングのための大規模データセットとベンチマーク

fulfulggg / Information-gathering

Fusion of Python and GIMP

MIT License

0 stars 0 forks source link

タイトル: Openstory++: インスタンスを意識したオープンエンドなビジュアルストーリーテリングのための大規模データセットとベンチマーク

リンク: https://arxiv.org/abs/2408.03695

概要:

近年の画像生成モデルは、短いキャプションから高品質な画像を生成することに優れています。しかし、長いコンテキストに遭遇すると、複数の画像にわたってインスタンスの整合性を維持できません。この不整合は、主に既存の訓練データセットにおいて、粒度の高いインスタンス特徴のラベル付けが欠如しているために起こります。これらの問題に取り組むため、画像とテキストの両方にインスタンスレベルの注釈を追加した大規模データセット「Openstory++」を紹介します。さらに、エンティティ中心の画像テキスト生成を重視した学習方法を開発し、モデルが視覚情報とテキスト情報を効果的に織り交ぜられるようにします。具体的には、Openstory++は、オープンソースの動画からキーフレームを抽出するプロセスを効率化し、画像言語モデルを用いてキャプションを生成し、それを大規模言語モデルで洗練させて物語の連続性を確保します。これは、自動キャプション、インスタンス数に合わせて調整された高解像度画像、時間的整合性のための広範なフレームシーケンスを組み込んだ、より広範なオープンソースを提供することで、従来のデータセットを凌駕しています。さらに、長いマルチモーダルコンテキストが与えられた場合の画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchを紹介します。これには、与えられたコンテキストにおける背景、スタイル、インスタンスの整合性を維持する機能も含まれています。既存のベンチマークと比較して、私たちの仕事はマルチモーダル生成における重要なギャップを埋め、オープンソース環境で複雑な物語を巧みに生成および解釈できるモデルの開発を推進します。Cohere-Bench内で行われた実験により、Openstory++が高品質なビジュアルストーリーテリングモデルを育成し、オープンソース生成タスクに対処する能力を高める上で優れていることが確認されました。詳細はhttps://openstorypp.github.io/をご覧ください。

論文要約: Openstory++

この論文では、画像生成AIが長く複雑な物語を矛盾なく描写できるようにするための新しいデータセット「Openstory++」と評価基準「Cohere-Bench」を提案しています。

課題:

従来の画像生成AIは、短い説明文から綺麗な絵を作るのは得意でしたが、長い物語になると登場人物や物の描写に矛盾が生じる問題がありました。

これは、AIの学習に使うデータセットに、登場人物や物の詳細なラベル付けが不足していたことが原因です。

Openstory++で解決すること:

より詳細なラベル付け: 登場人物や物にラベルを付けることで、AIが物語の要素を理解しやすくなるようにしました。

オープンソース動画からのデータ作成: インターネット上の動画から大量の画像と説明文を自動生成することで、データセットを大規模化しました。

物語の整合性を重視した学習方法の開発: AIが画像と文章の情報を上手く組み合わせられるように、学習方法を工夫しました。

Cohere-Bench:

Openstory++を使って学習したAIの性能を評価するための新しい基準です。

物語の整合性を保てているか、背景や登場人物の描写が適切かなどを評価できます。

成果:

Openstory++とCohere-Benchを使うことで、より自然で矛盾のない物語を画像で表現できるAIの開発が期待されます。

ポイント:

Openstory++は、従来のデータセットよりも規模が大きく、詳細なラベル付けがされています。

Cohere-Benchは、物語の整合性を評価できる新しい基準です。

これらの技術は、より人間らしい画像生成AIの開発に貢献すると期待されます。

fulfulggg / Information-gathering