fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

思い通りに編集:複数段階のユーザー制御による動画キャプション編集 #38

Open fulfulggg opened 1 month ago

fulfulggg commented 1 month ago

タイトル: 思い通りに編集:複数段階のユーザー制御による動画キャプション編集

リンク: https://arxiv.org/abs/2305.08389

概要:

ユーザーの要求に沿った自然言語による動画の自動ナレーション、すなわち制御可能なビデオキャプションタスクは、人々が膨大な動画を希望する意図に沿って管理するのに役立ちます。しかし、既存の研究には、2つの欠点があります。1) 制御信号が単一粒度であるため、多様なユーザーの意図を満たすことができない。2) 動画の説明が単一ラウンドで生成されるため、動的なニーズに合わせてさらに編集することができない。本稿では、複数粒度のユーザー要求に基づいて既存の動画説明を自動的に修正する、新しいビデオキャプション編集(VCE)タスクを提案します。人間の文章修正の習慣に着想を得て、粗粒度から細粒度までの多様なユーザーニーズをカバーするために、ユーザーコマンドを重要なトリプレット(操作、位置、属性)として設計します。VCEタスクを促進するために、VATEX-EDITという名前のオープンデータセットを自動的に構築し、EMMAD-EDITという名前のeコマースデータセットを手動で収集しました。さらに、新しいタスクの網羅的な分析を行うために、2つのジェネラリスト大規模マルチモーダルモデルと比較して、特殊な小規模モデル(OPA)を提案します。評価には、キャプションの流暢さ、コマンドとキャプションの一貫性、ビデオとキャプションの整合性を考慮した包括的な指標を採用します。実験の結果、細粒度マルチモーダルセマンティクスの理解と処理というタスクの課題が明らかにされました。データセット、コード、評価ツールはhttps://github.com/yaolinli/VCEで公開されています。

fulfulggg commented 1 month ago

論文要約

論文要約: 思い通りに編集:複数段階のユーザー制御による動画キャプション編集

この論文では、ユーザーの要望に合わせて動画の説明文(キャプション)を編集する新しい技術 ビデオキャプション編集 (VCE) を提案しています。

従来技術の問題点

VCEの特徴

新規データセット

提案モデル

評価

結果

公開情報

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました: