Daisy-Zhang / Awesome-Deepfakes-Detection

A list of tools, papers and code related to Deepfake Detection.
MIT License
1.06k stars 100 forks source link

你好,关于FF++的数据集预处理我有些疑惑,我注意到官方提供了划分json 文件,里面是些数字。但是造假视频一般有两个数字表示源视频或者目标视频,那到底是按照源视频的编号他是否属于训练集还是有别的什么方法,以及是否有讨论群之类的啊? #5

Closed LonelyPlanetIoT closed 1 year ago

LonelyPlanetIoT commented 1 year ago

我按照FF++Github 仓库中提供的代码对c40 数据逐帧提取,发现提取出来的图片达到几百个G请问这是正常的吗?原谅我的愚钝无知问出如此简单的问题,因为周边完全没有做这个的

Daisy-Zhang commented 1 year ago

您好,关于提到的问题:

  1. 官方提供的json文件(train/test/val.json)中两个数字是表示伪造视频的源视频和目标视频编号,每一种方法生成的视频命名都是a_b.mp4命名的,其中a和b就是各自视频编号,json文件中每一组数字就代表一个视频,按照该命名对伪造视频进行划分训练测试验证集
  2. 我个人经验使用opencv或ffmpeg对c40逐帧提取是没有遇到这么占空间的情况的
  3. 目前是没有讨论群的~
LonelyPlanetIoT commented 1 year ago

好的,感谢您的回复,十分感激,但我还是有点小困惑 (1)如train. json 文件中[187,234] 那对应的伪造视频187_234 234_187 都是对应的训练集吗? (2)json 文件里面对应的都是伪造视频,那真实视频的验证和伪造视如何划分的呢? (3)我对FF++ c40 视频逐帧提取用的是https://github.com/ondyari/FaceForensics 中的extract_compressed_videos.py 提取出来的每一帧大小约为1-2MB

Daisy-Zhang commented 1 year ago
  1. [187,234]对应两组不同source和target video生成的视频,都是属于同一个划分的集合
  2. 官方没有给出真实视频划分,可以参考一些常规划分方法
  3. 可以再仔细看看他们源码
010108 commented 11 months ago

你好,真实视频和伪造视频分别划分出来了训练集,需要把他们俩进行组合形成一个新的训练集来进行训练模型吗

Daisy-Zhang commented 11 months ago

您好,

Fake视频的两个数字分别代表源视频和目标视频,该编号能在官方提供的json文件中找到来确定是否属于训练集,关于讨论群抱歉目前还没有。

祝好!

010108 @.***> 于2023年12月8日周五 13:15写道:

你好,真实视频和伪造视频分别划分出来了训练集,需要把他们俩进行组合形成一个新的训练集来进行训练模型吗

— Reply to this email directly, view it on GitHub https://github.com/Daisy-Zhang/Awesome-Deepfakes-Detection/issues/5#issuecomment-1847072903, or unsubscribe https://github.com/notifications/unsubscribe-auth/AGX2QJWAC3WRK4P5WJGGHNDYIMAEHAVCNFSM6AAAAAAWMCENTWVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNBXGA3TEOJQGM . You are receiving this because you modified the open/close state.Message ID: @.*** com>