fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

Openstory++: インスタンスを意識したオープンエンドなビジュアルストーリーテリングのための大規模データセットとベンチマーク #25

Open fulfulggg opened 1 month ago

fulfulggg commented 1 month ago

タイトル: Openstory++: インスタンスを意識したオープンエンドなビジュアルストーリーテリングのための大規模データセットとベンチマーク

リンク: https://arxiv.org/abs/2408.03695

概要:

近年の画像生成モデルは、短いキャプションから高品質な画像を生成することに優れています。しかし、長いコンテキストに遭遇すると、複数の画像にわたってインスタンスの整合性を維持できません。この不整合は、主に既存の訓練データセットにおいて、粒度の高いインスタンス特徴のラベル付けが欠如しているために起こります。これらの問題に取り組むため、画像とテキストの両方にインスタンスレベルの注釈を追加した大規模データセット「Openstory++」を紹介します。さらに、エンティティ中心の画像テキスト生成を重視した学習方法を開発し、モデルが視覚情報とテキスト情報を効果的に織り交ぜられるようにします。具体的には、Openstory++は、オープンソースの動画からキーフレームを抽出するプロセスを効率化し、画像言語モデルを用いてキャプションを生成し、それを大規模言語モデルで洗練させて物語の連続性を確保します。これは、自動キャプション、インスタンス数に合わせて調整された高解像度画像、時間的整合性のための広範なフレームシーケンスを組み込んだ、より広範なオープンソースを提供することで、従来のデータセットを凌駕しています。さらに、長いマルチモーダルコンテキストが与えられた場合の画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchを紹介します。これには、与えられたコンテキストにおける背景、スタイル、インスタンスの整合性を維持する機能も含まれています。既存のベンチマークと比較して、私たちの仕事はマルチモーダル生成における重要なギャップを埋め、オープンソース環境で複雑な物語を巧みに生成および解釈できるモデルの開発を推進します。Cohere-Bench内で行われた実験により、Openstory++が高品質なビジュアルストーリーテリングモデルを育成し、オープンソース生成タスクに対処する能力を高める上で優れていることが確認されました。詳細はhttps://openstorypp.github.io/をご覧ください。

fulfulggg commented 1 month ago

論文要約

論文要約: Openstory++

この論文では、画像生成AIが長く複雑な物語を矛盾なく描写できるようにするための新しいデータセット「Openstory++」と評価基準「Cohere-Bench」を提案しています。

課題:

Openstory++で解決すること:

Cohere-Bench:

成果:

ポイント:

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました: