naoymd / paper_reading

0 stars 0 forks source link

Temporally Grounding Language Queries in Videos by Contextual Boundary-aware Prediction #9

Open naoymd opened 3 years ago

naoymd commented 3 years ago

論文情報

著者

Jingwen Wang, Lin Ma, Wenhao Jiang

投稿先

AAAI2020

論文のリンク

概要

図
タスク Temporal Moment Retrieval
問題点スライディングウィンドウ方式では様々な時間幅を持つタイムスタンプをカバーし切れないまた，計算コストも高く，無駄な処理が多い文章との相互関係をより良く捉える必要がある
提案手法
1. Query-Video Interaction Module
LSTMでvideo(v_t) とquery(q_j) の特徴抽出
各フレームの隠れ層と各単語の隠れ層から認識に有効な重みづけを作成(attention map)
attention mapから各フレームごとにattentionされた文章特徴量を算出
attentionされた文章特徴と動画特徴をconcatしたinteraction特徴量をLSTMで算出

Contextual Integration Module
- self-attentionによって認識に有効な特徴量を強調
- 強調前のinteraction特徴量とattention済み特徴量をconcat
Localization Module
- AnchorサブモジュールとBoundaryサブモジュールの並列構成
  1. Anchorサブモジュール
- 時刻t-l_iからtまでのK(i=1,...,K)個のセグメントを用意
- 各セグメントでスコアを算出(線形結合)
  1. Boundaryサブモジュール
- 時刻tがタイムスタンプの(start, end)のいずれかであるかをジャッジ
Loss
- Anchor loss: クロスエントロピー
- Boundary loss: クロスエントロピー

課題・展望など

Anchorサブモジュールの理解が浅い

次に読んでみたい関連論文