zhangzjn / APB2Face

Official pytorch implementation for "APB2Face: Audio-guided face reenactment with auxiliary pose and blink signals", ICASSP'20
MIT License
63 stars 19 forks source link

关于生成的图片序列抖动的问题,您有考虑过怎么处理吗?谢谢! #6

Closed ZerRui closed 4 years ago

ZerRui commented 4 years ago

首先很感谢您的分享! 按照您的代码,我们生成的图片序列抖动的比较厉害,您有什么建议应该怎么去除抖动吗?谢谢!

zhangzjn commented 4 years ago

1.建议检查下预测的landmark是否抖动,一般情况下landmark不抖动生成的图像也不会抖动。可以考虑对您自己采集的音频数据进行预处理,比如去噪、滤波平滑等操作。 2.对于音频预测的landmark存在抖动,可以考虑在生成图像时添加时序平滑loss。

ZerRui commented 4 years ago

感谢您的回复! 您再实验过程中,有没有尝试过直接网络生成带背景的整图,不进行裁剪?

fastcode3d commented 4 years ago

@zhangzjn 2.对于音频预测的landmark存在抖动,可以考虑在生成图像时添加时序平滑loss。

请问这里是指在第一阶段的网络里加时序平滑吗?还是第二阶段加?

ZerRui commented 4 years ago

张老师您好,有几个问题还想请教您: 1.我看您最后生成视频的时候是放慢了5倍,这个是出于帧率的考虑还是什么原因呢? 2.您上面说的时序平滑loss,是加在第二阶段还是第一阶段的网络呢? 3.您有没有尝试过直接合成整张图片或者只合成嘴部图片,这种您觉着可行吗? 期待您的回复!

zhangzjn commented 4 years ago

1.5帧是为了观感。 2.两阶段都可以尝试 3.可行,全图对算力要求高一些

kunyao2015 commented 2 years ago

您好,关于时序平滑loss, 有什么参考资料吗