Large scale weakly supervised pretraining for video action recognition

web動画でのpretrainは、3つのデータセットでSOTAを改善

弱教師ありビデオアクションデータセットについて以下のことを調べた。１．どうやって転移学習にとって最良の動詞-オブジェクトのpre-train label空間を構築するのか２．フレームベースにおいて、画像特徴抽出のpre-trainingは十分か３．どのくらいのコストで最高の性能を得られるか。

webから無限にpretrain 用のデータを引っ張ってこれる。 10億枚くらいtrainしている。短い動画の時間的に良いlocalizationと長い動画のより多くの多様性の両方のトレードオフを明確にした。 long tailのあまり使わないデータセットはかならず使うようにtail-preservingする

idekazuki / -Paper-summary

Large scale weakly supervised pretraining for video action recognition #21