你好，关于FF++的数据集预处理我有些疑惑，我注意到官方提供了划分json 文件，里面是些数字。但是造假视频一般有两个数字表示源视频或者目标视频，那到底是按照源视频的编号他是否属于训练集还是有别的什么方法，以及是否有讨论群之类的啊？

Daisy-Zhang / Awesome-Deepfakes-Detection

A list of tools, papers and code related to Deepfake Detection.

MIT License

1.06k stars 100 forks source link

你好，关于FF++的数据集预处理我有些疑惑，我注意到官方提供了划分json 文件，里面是些数字。但是造假视频一般有两个数字表示源视频或者目标视频，那到底是按照源视频的编号他是否属于训练集还是有别的什么方法，以及是否有讨论群之类的啊？ #5

Closed LonelyPlanetIoT closed 1 year ago

LonelyPlanetIoT commented 1 year ago

我按照FF++Github 仓库中提供的代码对c40 数据逐帧提取，发现提取出来的图片达到几百个G请问这是正常的吗？原谅我的愚钝无知问出如此简单的问题，因为周边完全没有做这个的

Daisy-Zhang commented 1 year ago

您好，关于提到的问题：

官方提供的json文件（train/test/val.json）中两个数字是表示伪造视频的源视频和目标视频编号，每一种方法生成的视频命名都是a_b.mp4命名的，其中a和b就是各自视频编号，json文件中每一组数字就代表一个视频，按照该命名对伪造视频进行划分训练测试验证集
我个人经验使用opencv或ffmpeg对c40逐帧提取是没有遇到这么占空间的情况的
目前是没有讨论群的~

LonelyPlanetIoT commented 1 year ago

好的，感谢您的回复，十分感激，但我还是有点小困惑（1）如train. json 文件中[187,234] 那对应的伪造视频187_234 234_187 都是对应的训练集吗？（2）json 文件里面对应的都是伪造视频，那真实视频的验证和伪造视如何划分的呢？（3）我对FF++ c40 视频逐帧提取用的是https://github.com/ondyari/FaceForensics 中的extract_compressed_videos.py 提取出来的每一帧大小约为1-2MB

Daisy-Zhang commented 1 year ago

[187,234]对应两组不同source和target video生成的视频，都是属于同一个划分的集合
官方没有给出真实视频划分，可以参考一些常规划分方法
可以再仔细看看他们源码

010108 commented 11 months ago

你好，真实视频和伪造视频分别划分出来了训练集，需要把他们俩进行组合形成一个新的训练集来进行训练模型吗

Daisy-Zhang commented 11 months ago

您好，

Fake视频的两个数字分别代表源视频和目标视频，该编号能在官方提供的json文件中找到来确定是否属于训练集，关于讨论群抱歉目前还没有。

祝好！

010108 @.***> 于2023年12月8日周五 13:15写道：

你好，真实视频和伪造视频分别划分出来了训练集，需要把他们俩进行组合形成一个新的训练集来进行训练模型吗

— Reply to this email directly, view it on GitHub https://github.com/Daisy-Zhang/Awesome-Deepfakes-Detection/issues/5#issuecomment-1847072903, or unsubscribe https://github.com/notifications/unsubscribe-auth/AGX2QJWAC3WRK4P5WJGGHNDYIMAEHAVCNFSM6AAAAAAWMCENTWVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNBXGA3TEOJQGM . You are receiving this because you modified the open/close state.Message ID: @.*** com>