JoeLeelyf / OpenAVFF

An unofficial pytorch implementation of the closed-source newly published work AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection.
9 stars 0 forks source link

loss(D) and loss(G) #2

Closed Txr7 closed 1 month ago

Txr7 commented 2 months ago

您好,请问论文中的两个Wasserstein GAN损失,应该怎么去理解,本想在您的复现代码帮助下去理解,不过我没在代码中找到

微信截图_20240916192214

JoeLeelyf commented 2 months ago

抱歉这个我在这里没有复现,打算这一两周把这部分加进去再训练

Txr7 commented 2 months ago

抱歉这个我在这里没有复现,打算这一两周把这部分加进去再训练

感谢您的回复,我想请教一下,这两个损失应该怎么去理解呀,如果方便的话可以简单描述下吗

JoeLeelyf commented 2 months ago

根据AVFF论文中的描述,他这部分的loss直接参考了MARLIN: Masked Autoencoder for facial video Representation LearnINg这篇论文中的loss的设计。MARLIN原论文中在3.2. c)中解释了所谓的Adversarial Adaptation Strategy,大概意思是通过在MAE后面再加一个这样的adversarial adaptation的模块,借用GAN的思想,可以帮助前面的模块学习到相比于直接的pixel level的l2 loss更加高级的特征,提取到更加丰富的特征。 下面是MARLIN的Pipeline,可供参考。 Screenshot 2024-09-18 at 15 26 15

Txr7 commented 2 months ago

十分感谢,我去研究一下🙏