BadToBest / EchoMimic

Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning
https://badtobest.github.io/echomimic.html
Apache License 2.0
2.26k stars 263 forks source link

如何平衡latent上的mse loss 和 pixel空间的spatial loss #63

Closed XuankeShi closed 1 month ago

XuankeShi commented 1 month ago

论文提到了一个权重, 关于这两部分的loss权重, 想咨询下是否有经验可以借鉴. 另外,在pixel空间的spatial loss, 在vgg perception loss 和 L2 loss的权重是否有相关的配置.

JoeFannie commented 1 month ago

这个我们后续会根据paper投稿情况给出详细细节。