Open idekazuki opened 5 years ago
web動画でのpretrainは、3つのデータセットでSOTAを改善
弱教師ありビデオアクションデータセットについて以下のことを調べた。 1.どうやって転移学習にとって最良の動詞-オブジェクトのpre-train label空間を構築するのか 2.フレームベースにおいて、画像特徴抽出のpre-trainingは十分か 3.どのくらいのコストで最高の性能を得られるか。
webから無限にpretrain 用のデータを引っ張ってこれる。 10億枚くらいtrainしている。 短い動画の時間的に良いlocalizationと長い動画のより多くの多様性の両方のトレードオフを明確にした。 long tailのあまり使わないデータセットはかならず使うようにtail-preservingする
web動画でのpretrainは、3つのデータセットでSOTAを改善
弱教師ありビデオアクションデータセットについて以下のことを調べた。 1.どうやって転移学習にとって最良の動詞-オブジェクトのpre-train label空間を構築するのか 2.フレームベースにおいて、画像特徴抽出のpre-trainingは十分か 3.どのくらいのコストで最高の性能を得られるか。
webから無限にpretrain 用のデータを引っ張ってこれる。 10億枚くらいtrainしている。 短い動画の時間的に良いlocalizationと長い動画のより多くの多様性の両方のトレードオフを明確にした。 long tailのあまり使わないデータセットはかならず使うようにtail-preservingする