Open idekazuki opened 4 years ago
目標:ラベル無しで、動画の様々なフレームの重要性を識別するためにネットワークを学習すること。 重要度スコアを学習するための損失関数を提供数rために、敵対的学習方法を採用 フレームの重要度スコアは、フレームがようやくに含まれる可能性を反映する。 最後に重要度スコアに基づいて要約動画を生成。
動画要約に、低レベルの特徴から計算されるAttentionを採用すると低レベルの特徴にのみ依存し、フレーム間の時間的依存関係を考慮していない。 Multi head Self-Attentionモジュールを採用すると、長距離の時間依存性をキャプチャすることができる。 動画要約でMulti head Self-Attentionを利用するのは本手法が初めて。
・Generator Multi head Self-Attention +BiLSTM 条件付き特徴とBiLSTM出力をconcatし、線形ブロックに接続され、フレームレベルの重要度スコアを取得する。
・Discriminator Multi head Self-Attention module + BiLSTM model + sigmoid function Discriminatorスコア(1:実データ, 0:偽データ) Discriminatorの機能は、xとeの特徴感の類似性を推定し、生のフレーム特徴xに十分に類似した荷重フレーム特徴eをGeneratorに生成させること。
ただしGoogle Net使っていて、動き特徴量はほとんど無視している?
ACM Multimedia, (2019). Attention付きConditional GAN(ACGAN)を提案し,Video Summarizationにおいて,SumMeとTVSumでSOTAを達成.