Unsupervised Video Summarization with Attentive Conditional Generative Adversarial Networks

idekazuki commented 4 years ago

ACM Multimedia, (2019). Attention付きConditional GAN(ACGAN)を提案し,Video Summarizationにおいて,SumMeとTVSumでSOTAを達成.

idekazuki commented 4 years ago

目標：ラベル無しで、動画の様々なフレームの重要性を識別するためにネットワークを学習すること。重要度スコアを学習するための損失関数を提供数rために、敵対的学習方法を採用フレームの重要度スコアは、フレームがようやくに含まれる可能性を反映する。最後に重要度スコアに基づいて要約動画を生成。

動画要約に、低レベルの特徴から計算されるAttentionを採用すると低レベルの特徴にのみ依存し、フレーム間の時間的依存関係を考慮していない。 Multi head Self-Attentionモジュールを採用すると、長距離の時間依存性をキャプチャすることができる。動画要約でMulti head Self-Attentionを利用するのは本手法が初めて。

idekazuki commented 4 years ago

・Generator Multi head Self-Attention +BiLSTM 条件付き特徴とBiLSTM出力をconcatし、線形ブロックに接続され、フレームレベルの重要度スコアを取得する。

・Discriminator Multi head Self-Attention module + BiLSTM model + sigmoid function Discriminatorスコア(1:実データ, 0:偽データ) Discriminatorの機能は、xとeの特徴感の類似性を推定し、生のフレーム特徴xに十分に類似した荷重フレーム特徴eをGeneratorに生成させること。

ただしGoogle Net使っていて、動き特徴量はほとんど無視している？

idekazuki / -Paper-summary

Unsupervised Video Summarization with Attentive Conditional Generative Adversarial Networks #54