williamyang1991 / VToonify

[SIGGRAPH Asia 2022] VToonify: Controllable High-Resolution Portrait Video Style Transfer
Other
3.53k stars 442 forks source link

关于模型结果不能眨眼的问题 #53

Open echo1993in opened 1 year ago

echo1993in commented 1 year ago

我训练了一个256分辨率的模型,同时用了相应的stylegan,pspencoder,dualstylegan,这几个模型的单独效果都是ok的。 在训练vtoonify中,我修改了部分代码,directions是基于1024stylegan的,我注释掉了这部分的latent的变换。 xc, _ = g_ema.stylegan()([wc], input_is_latent=True, truncation=0.5, truncation_latent=0) 这个xc作为realoutput,是不是因为这个用dualstylegan生成的风格图没用闭眼的情况所以导致了最后vtoonify不能应对闭眼的图像?

我单独测试pspencoder,对闭眼图像还原的还是可以的,但是dualstylegan对闭眼图像的风格化,不能生成闭眼的图像。

williamyang1991 commented 1 year ago

这就是data bias问题。

一个原因是directions注释掉后,训练集就没有闭眼的输入了 还有一个原因是训练dualstylegan风格化的数据集大概率也是没有闭眼数据 所以dualstylegan不能生成闭眼的图像,vtoonify既没见过闭眼的真人数据也没见过闭眼的卡通数据,因此就处理不了这个问题。