Open idekazuki opened 4 years ago
https://arxiv.org/pdf/2002.02100.pdf 使用しているデータセットは以下のリンクにあるKTH and WEIZMANN human actions datasets. 白黒の動画データセットで、背景はほとんど白い壁であるので認識はしやすそう。runnig, jumpなどかんたんな動作が記録されいる。 https://www.researchgate.net/figure/Weizmann-and-KTH-human-action-datasets_fig1_309775262
手法
通常の3D CNNの入力は、動画のセグメント内でランダムに1フレームを選択する、もしくは中央のフレームを抽出することで学習時のメモリを減らすことが一般的である。本手法では、上の図のように、動画セグメントをガウス分布に従って中央に近いほど大きな値、セグメントの端に行くほど小さな値をかけてセグメント内のフレームをすべて加重加算する。更にすべて加算した後に2.46で割ったものを入力とする。
結果の表を見たが、従来手法で制度100%のものがあり、dataset自体が簡単な可能性がある。(もしくは訓練データにテストデータを含めたものを論文として出した?)
考え方自体は面白いが、これでうまく行っても生物学的にあまり説明ができる気がしない。 人間の動画の認識に置き換えて考えると、中央のフレームほど重み付けされているので視覚情報を波のように捉えているということになるが実際にはそうではないと思う。
違う時間軸のフレームを重ねる考え方はTSMなどと発想が似ている。しかし、TSMは重ねることで2D-CNNを実現しているのでTSMのほうが有用であると考えられる。
https://arxiv.org/pdf/2002.02100.pdf 使用しているデータセットは以下のリンクにあるKTH and WEIZMANN human actions datasets. 白黒の動画データセットで、背景はほとんど白い壁であるので認識はしやすそう。runnig, jumpなどかんたんな動作が記録されいる。 https://www.researchgate.net/figure/Weizmann-and-KTH-human-action-datasets_fig1_309775262
手法
通常の3D CNNの入力は、動画のセグメント内でランダムに1フレームを選択する、もしくは中央のフレームを抽出することで学習時のメモリを減らすことが一般的である。本手法では、上の図のように、動画セグメントをガウス分布に従って中央に近いほど大きな値、セグメントの端に行くほど小さな値をかけてセグメント内のフレームをすべて加重加算する。更にすべて加算した後に2.46で割ったものを入力とする。
結果の表を見たが、従来手法で制度100%のものがあり、dataset自体が簡単な可能性がある。(もしくは訓練データにテストデータを含めたものを論文として出した?)
考え方自体は面白いが、これでうまく行っても生物学的にあまり説明ができる気がしない。 人間の動画の認識に置き換えて考えると、中央のフレームほど重み付けされているので視覚情報を波のように捉えているということになるが実際にはそうではないと思う。
違う時間軸のフレームを重ねる考え方はTSMなどと発想が似ている。しかし、TSMは重ねることで2D-CNNを実現しているのでTSMのほうが有用であると考えられる。