关于利用Xception训练时数据集大小的疑问？

MZMMSEC commented 3 years ago

honggu，您好。我最近在利用Xception训练deefake，其中我遇到了一些问题：我的训练精度非常高，但是validation和test的acc却很低或者不变。起初我以为是我Dataloader部分的代码写错了，但是我将train dataset作为validation，却能够在每个epoch下acc能够提升。先声明一下，我采用的不是FF++的数据集和Kaggle上DFDC的full数据集（太大了），而是用的Kaggle上给的sample dataset（大概400个训练视频，400个测试视频），并且在提取人脸后也做了样本平衡的操作。所以，我想问一下经验丰富的您，是否是我采用的数据集太小而导致的问题，是否必须采用full dataset才能够在validation和test中看到一些效果？

HongguLiu commented 3 years ago

你好，根据你的问题，我认为就是过拟合了，因为sample dataset数据集中样本实在是太少了，很容易过拟合到400个训练视频，可以考虑两种解决办法。

增加额外的数据集，比如选取DFDC full的一部分。
使用数据增强的手段，对训练集数据多样化。

Honggu

Sent from Mail for Windows 10

From: HKCityUmian Sent: 2021年4月23日 10:52 To: HongguLiu/Deepfake-Detection Cc: Subscribed Subject: [HongguLiu/Deepfake-Detection] 关于利用Xception训练时数据集大小的疑问？ (#19)

honggu，您好。我最近在利用Xception训练deefake，其中我遇到了一些问题：我的训练精度非常高，但是validation和test的acc却很低或者不变。起初我以为是我Dataloader部分的代码写错了，但是我将train dataset作为validation，却能够在每个epoch下acc能够提升。先声明一下，我采用的不是FF++的数据集和Kaggle上DFDC的full数据集（太大了），而是用的Kaggle上给的sample dataset（大概400个训练视频，400个测试视频），并且在提取人脸后也做了样本平衡的操作。所以，我想问一下经验丰富的您，是否是我采用的数据集太小而导致的问题，是否必须采用full dataset才能够在validation和test中看到一些效果？ — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

MZMMSEC commented 3 years ago

thanks a lot for your response!

HongguLiu / Deepfake-Detection

关于利用Xception训练时数据集大小的疑问？ #19