思路及模型简述

数据集分为Frame level data和Video level data。youtube上的视频经过筛选之后，最多取前300s，每秒取一帧，一共得到最多300帧。然后对每帧分别经过inception-v3的p re-train模型，得到特征，再对特征进行PCA，whitening以及压缩，得到Frame level data。将每个视频的所有Frame level data平均为1帧，得到Video level data。另外，audio的数据也是相同的流程进行处理。

NiyunZhou / The21-dayExpendables

readme

思路及模型简述