Daisy-Zhang / Awesome-Deepfakes-Detection

A list of tools, papers and code related to Deepfake Detection.
MIT License
941 stars 91 forks source link

关于数据集的问题 #1

Closed DeepDetector closed 3 years ago

DeepDetector commented 3 years ago

大佬你好,我想请问一下如何将这些数据集划分成训练集与测试集。将一段视频的前80%作为训练集,后20%作为测试集这种划分方式可行吗?(感觉不太好,这样就好像把训练集的数据拿到测试集中了)

Daisy-Zhang commented 3 years ago

对视频数据集的划分(我了解到的和我平时做实验的划分方式)是按照视频文件个数进行划分,比如按8:2随机抽80%的视频作为训练集,剩余20%作为测试集,而且Celeb-DF这个数据集官方给出的benchmark标准也是按照视频文件数去划分的。至于按照视频前80%时长作为训练集后20%时长作为测试集,这个在视频分类任务里面确实好像不太常见,而且这样分数据集存在的问题一个是像你说的相当于训练集和测试集重复了,同时也会导致训练测试集数据存在不一致(比如时长)。仅供参考~

DeepDetector commented 3 years ago

收到~感谢!

DeepDetector commented 3 years ago

大佬您好,我看论文里有C20C40(HQ , LQ)格式的数据集,这个是怎么生成的?

Daisy-Zhang commented 3 years ago

这个两个格式按照论文里的说法是对raw视频数据进行了不同程度的压缩处理,具体压缩处理方式建议参考原论文~

DeepDetector commented 3 years ago

了解~十分感谢!