Open fulfulggg opened 1 week ago
テキスト画像生成 (TTI) システムは、アイデアを練る段階、つまり創造的プロセスの初期段階において、幅広い関連画像を提示することでデザイン空間の探索を支援することがよくあります。アイデア出しはTTIタスクの重要なサブクラスであるため、ユーザーのアイデア出しをどれだけうまくサポートできるかという観点からTTIシステムを定量的に評価する方法を理解することは、これらのユーザーのための研究開発を促進する上で非常に重要です。しかし、既存のTTIの評価指標は、フレシェ開始距離 (FID) のような分布の類似性指標に焦点を当てたままです。本研究では、別のアプローチを採用し、ランキング評価の確立された手法に基づいて、ユーザーが空間的に配置された生成画像のセットをどのように閲覧し、対話するかを明示的にモデル化したTTI評価指標を開発します。提案するTTIのオフライン評価指標は、生成された画像がユーザーのアイデア出しのニーズにどれだけ関連しているかを捉えるだけでなく、生成された画像のセットの多様性と配置も考慮に入れています。広く使用されているベンチマークであるMS-COCOキャプションやLocalized Narrativesのサブセット、および自然な設定で使用されるプロンプトに基づいて、3つの異なるTTIシステムによって生成された画像グリッドに対する人間による調査を使用して、提案されたTTIメトリクスのファミリーを分析します。その結果、システムの使用方法に基づいた評価指標の根拠付けは、ベンチマーク設計において重要かつ未開拓の分野であることが示されました。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: セットベースのテキスト画像生成のオフライン評価
リンク: https://arxiv.org/abs/2410.17331
概要:
テキスト画像生成 (TTI) システムは、アイデアを練る段階、つまり創造的プロセスの初期段階において、幅広い関連画像を提示することでデザイン空間の探索を支援することがよくあります。アイデア出しはTTIタスクの重要なサブクラスであるため、ユーザーのアイデア出しをどれだけうまくサポートできるかという観点からTTIシステムを定量的に評価する方法を理解することは、これらのユーザーのための研究開発を促進する上で非常に重要です。しかし、既存のTTIの評価指標は、フレシェ開始距離 (FID) のような分布の類似性指標に焦点を当てたままです。本研究では、別のアプローチを採用し、ランキング評価の確立された手法に基づいて、ユーザーが空間的に配置された生成画像のセットをどのように閲覧し、対話するかを明示的にモデル化したTTI評価指標を開発します。提案するTTIのオフライン評価指標は、生成された画像がユーザーのアイデア出しのニーズにどれだけ関連しているかを捉えるだけでなく、生成された画像のセットの多様性と配置も考慮に入れています。広く使用されているベンチマークであるMS-COCOキャプションやLocalized Narrativesのサブセット、および自然な設定で使用されるプロンプトに基づいて、3つの異なるTTIシステムによって生成された画像グリッドに対する人間による調査を使用して、提案されたTTIメトリクスのファミリーを分析します。その結果、システムの使用方法に基づいた評価指標の根拠付けは、ベンチマーク設計において重要かつ未開拓の分野であることが示されました。