naoymd / paper_reading

0 stars 0 forks source link

Temporally Grounding Language Queries in Videos by Contextual Boundary-aware Prediction #9

Open naoymd opened 3 years ago

naoymd commented 3 years ago

論文情報

著者

Jingwen Wang, Lin Ma, Wenhao Jiang

投稿先

AAAI2020

論文のリンク

pdf

概要

  1. Contextual Integration Module

    • self-attentionによって認識に有効な特徴量を強調
    • 強調前のinteraction特徴量とattention済み特徴量をconcat
  2. Localization Module

    • AnchorサブモジュールとBoundaryサブモジュールの並列構成
      1. Anchorサブモジュール
    • 時刻t-l_iからtまでのK(i=1,...,K)個のセグメントを用意
    • 各セグメントでスコアを算出(線形結合)
      1. Boundaryサブモジュール
    • 時刻tがタイムスタンプの(start, end)のいずれかであるかをジャッジ
  3. Loss

    • Anchor loss: クロスエントロピー
    • Boundary loss: クロスエントロピー

課題・展望など

Anchorサブモジュールの理解が浅い

次に読んでみたい関連論文