Open yiskw713 opened 5 years ago
Zijian Kang et al.
2019
pdf
Weakly-supervised action localization に取り組んだ研究.既存の研究では実験的な閾値などを用いた手法が多く,最適なものとは言えない.そこで本研究では,そのような実験的な閾値に取って代わる多用途の行動認識用の基準を提案している.この基準に基づいて,様々なストリームの組み合わせについて検証し,Action Sensitive Extractor(ASE)と呼ばれる,どのスニペットにactionが含まれているのかを決定するClass Activation Sequence(CAS)を生成するモデルを提案している(上図).THUMOS14やActivityNet1.3でSOTAを達成.
既存研究の問題点として,現実世界においては楽観的かもしれない二つの仮定をしている点をあげている.一つ目は,actionの境界を決定するための実験的な閾値を用いていることである.二つ目は,CASを生成するために用いられるtwo-stream networkがよく用いられているため,straight forwardなstreamの結合方法が十分なものだと考えられている点である.two-stream networkではお互いのstreamが独立して学習されるため,stream間でのインタラクションが起きない.これらの問題点を踏まえて,ASE model を提案している.
提案手法では,temporal stream をmain streamとしている.オプションとして,上図の3通りのstreamの結合方法を検証している.streamを統合する際はDenseNetのようにコンカットする.
(a)Fusion Model: 単に二つのstream の特徴量をコンカットする方法.ただし学習の際は,事前学習済みのtemporal stream を用いて,spatial stream は重みを0で初期化したものを用いる.これは,Net2Net(https://arxiv.org/abs/1511.05641)での方法を用いている.
(b)Bottleneck Model: spatial featuresにoverfitすることを避けるために,spatial features の知識を制限し,抽出するためのモデルとして,Bottleneck Modelについて検証している.Bottleneck Layer は,dropoutと全結合層とReLUから成り立っている.これにより,actionを認識することを助けるより表現的な空間特徴量を抽出できるらしい
(c)Bilinear Bottleneck Model: Bottleneck Modelでは不要なspatial featuresは取り除けるが,二つのstreamにインタラクションがない.そこで,既存研究で提案されているspatio-temporalな特徴量を集約するための方法である,bilinear layers を用いて二つのstreamのインタラクションを起こす.本研究では,0.5 dropoutの後に,二つのストリームの特量量をそれぞれ別の全結合層に通し,bilinear layer に入力する.
学習時は,ASEから得られたattentionに対して分位点(quantile)を定め,それを用いて一定の割合のクリップを背景としてトリミングする.
May 22, 2019
INFO
author
Zijian Kang et al.
conference or year
2019
link
pdf
概要
Weakly-supervised action localization に取り組んだ研究.既存の研究では実験的な閾値などを用いた手法が多く,最適なものとは言えない.そこで本研究では,そのような実験的な閾値に取って代わる多用途の行動認識用の基準を提案している.この基準に基づいて,様々なストリームの組み合わせについて検証し,Action Sensitive Extractor(ASE)と呼ばれる,どのスニペットにactionが含まれているのかを決定するClass Activation Sequence(CAS)を生成するモデルを提案している(上図).THUMOS14やActivityNet1.3でSOTAを達成.
提案手法
既存研究の問題点として,現実世界においては楽観的かもしれない二つの仮定をしている点をあげている.一つ目は,actionの境界を決定するための実験的な閾値を用いていることである.二つ目は,CASを生成するために用いられるtwo-stream networkがよく用いられているため,straight forwardなstreamの結合方法が十分なものだと考えられている点である.two-stream networkではお互いのstreamが独立して学習されるため,stream間でのインタラクションが起きない.これらの問題点を踏まえて,ASE model を提案している.
提案手法では,temporal stream をmain streamとしている.オプションとして,上図の3通りのstreamの結合方法を検証している.streamを統合する際はDenseNetのようにコンカットする.
3通りの結合方法
(a)Fusion Model: 単に二つのstream の特徴量をコンカットする方法.ただし学習の際は,事前学習済みのtemporal stream を用いて,spatial stream は重みを0で初期化したものを用いる.これは,Net2Net(https://arxiv.org/abs/1511.05641)での方法を用いている.
(b)Bottleneck Model: spatial featuresにoverfitすることを避けるために,spatial features の知識を制限し,抽出するためのモデルとして,Bottleneck Modelについて検証している.Bottleneck Layer は,dropoutと全結合層とReLUから成り立っている.これにより,actionを認識することを助けるより表現的な空間特徴量を抽出できるらしい
(c)Bilinear Bottleneck Model: Bottleneck Modelでは不要なspatial featuresは取り除けるが,二つのstreamにインタラクションがない.そこで,既存研究で提案されているspatio-temporalな特徴量を集約するための方法である,bilinear layers を用いて二つのstreamのインタラクションを起こす.本研究では,0.5 dropoutの後に,二つのストリームの特量量をそれぞれ別の全結合層に通し,bilinear layer に入力する.
Action Detection Criterionについて
学習時は,ASEから得られたattentionに対して分位点(quantile)を定め,それを用いて一定の割合のクリップを背景としてトリミングする.
Networkの全体像
Comment
date
May 22, 2019