Open yiskw713 opened 5 years ago
Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, Juan Carlos Niebles
Stanford University
pdf
"Dense-Captioning Events"というタスクの提案論文.1つの動画に対して1つの説明文ではなく,動画内で起きている全てのイベントに対して説明文を与えるというタスクを提案している. このタスクのために,一度動画を入力するだけで動画内のイベントを全て検出し,それらに対してcaptionを生成するモデルを提案している.またイベント間の依存関係を捉えるためにコンテキスト情報を用いるモジュールや,Dense-Captioning Events のベンチマークとして,ActivityNet Captions というデータセットも提案している.
dense-captioning eventsにおけるキーは二つある. 一つ目は,image captioning と違い,dense-captioning eventsは,actionが起こっている可変長フレームを予測する必要がある(proposal 同士はオーバーラップすることがある)点である.例えば,ピアノを弾いているに対し,人々が拍手をしていれば,これら二つのイベントは時間方向にオーバーラップしている.従来研究では,Global Pooling が用いられていたが,これは長い時間の動画では複数のイベントを含むためうまく行かない.これを解決するために,DAPs(#57)をマルチスケールの action proposal 検出へと拡張している.
二つ目は,動画内のイベントは双方に関係し合うことが多いということである.先の例で言えば,拍手をしている人々は,ピアノを弾いている人に対して拍手をしているはずである.この関連性を捉えるための新たなモジュールを提案している.
ネットワークの概要は以上のようになっている. まずevent proposal を推定する.16フレームのクリップそれぞれに対して,C3Dを用いて特徴量を抽出する. この特徴量をDAPs(ストライド1,2,4,8でサンプルし,それぞれをLSTM unitへ)に入力する.長いストライドのものほど長期的なイベントを捉えらえる.proposal を検出した時のLSTMの隠れ層の状態をイベントの特徴表現として用いている.DAPsと異なり,推論時にはK個のproposalを出すようにしていて,NMSなどは用いていない.
proposal modelから得られた,proposal と特徴表現を用いて,各proposal に対してcaptionを生成する.この時,それぞれのイベント同士は関連しあっているはずなので,コンテキストを捉えるモデル構造にする. 具体的には,captionを生成したいイベントに対して,他のイベントを past と future に分割し,それらのイベントの特徴表現(LSTMの隠れ層の状態)hiを以下のように集約させる.
past, futureの特徴表現をそれぞれ重み付けして足し合わせ平均を取ったものを,hipast, hifutureをとして,hiにコンカットして言語モデルに入力する.
言語モデルはシンプルな2層のLSTMとなっている.
実際のキャプション
May 16, 2019
INFO
author
Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, Juan Carlos Niebles
affiliation
Stanford University
conference or year
link
pdf
概要
"Dense-Captioning Events"というタスクの提案論文.1つの動画に対して1つの説明文ではなく,動画内で起きている全てのイベントに対して説明文を与えるというタスクを提案している. このタスクのために,一度動画を入力するだけで動画内のイベントを全て検出し,それらに対してcaptionを生成するモデルを提案している.またイベント間の依存関係を捉えるためにコンテキスト情報を用いるモジュールや,Dense-Captioning Events のベンチマークとして,ActivityNet Captions というデータセットも提案している.
提案手法
dense-captioning eventsにおけるキーは二つある. 一つ目は,image captioning と違い,dense-captioning eventsは,actionが起こっている可変長フレームを予測する必要がある(proposal 同士はオーバーラップすることがある)点である.例えば,ピアノを弾いているに対し,人々が拍手をしていれば,これら二つのイベントは時間方向にオーバーラップしている.従来研究では,Global Pooling が用いられていたが,これは長い時間の動画では複数のイベントを含むためうまく行かない.これを解決するために,DAPs(#57)をマルチスケールの action proposal 検出へと拡張している.
二つ目は,動画内のイベントは双方に関係し合うことが多いということである.先の例で言えば,拍手をしている人々は,ピアノを弾いている人に対して拍手をしているはずである.この関連性を捉えるための新たなモジュールを提案している.
ネットワークの概要は以上のようになっている. まずevent proposal を推定する.16フレームのクリップそれぞれに対して,C3Dを用いて特徴量を抽出する. この特徴量をDAPs(ストライド1,2,4,8でサンプルし,それぞれをLSTM unitへ)に入力する.長いストライドのものほど長期的なイベントを捉えらえる.proposal を検出した時のLSTMの隠れ層の状態をイベントの特徴表現として用いている.DAPsと異なり,推論時にはK個のproposalを出すようにしていて,NMSなどは用いていない.
proposal modelから得られた,proposal と特徴表現を用いて,各proposal に対してcaptionを生成する.この時,それぞれのイベント同士は関連しあっているはずなので,コンテキストを捉えるモデル構造にする. 具体的には,captionを生成したいイベントに対して,他のイベントを past と future に分割し,それらのイベントの特徴表現(LSTMの隠れ層の状態)hiを以下のように集約させる.
past, futureの特徴表現をそれぞれ重み付けして足し合わせ平均を取ったものを,hipast, hifutureをとして,hiにコンカットして言語モデルに入力する.
言語モデルはシンプルな2層のLSTMとなっている.
検証
実際のキャプション
新規性
議論,展望
date
May 16, 2019