Periodic Sampling for Longer Animation效果复现的问题

MyNiuuu / MOFA-Video

Official Pytorch implementation for MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model.

https://myniuuu.github.io/MOFA_Video

Other

358 stars 22 forks source link

Periodic Sampling for Longer Animation效果复现的问题 #21

Closed duanjiding closed 4 days ago

duanjiding commented 4 days ago

按照论文中Periodic Sampling for Longer Animation部分的方案，我在原代码的基础上，在denoise step中将latent按照滑窗大小进行拆分后分别通过unet模型，然后在合并窗口。但是复现后发现物体的运动总出现抖动，不知道怎么回事，有人遇到类似的问题吗？

MyNiuuu commented 4 days ago

Periodic Sampling是用在facial landmark-based generation的。我试过在trajectory上面直接用Periodic Sampling，但是效果会出现糊和抖动的情况。

这里面的原因我觉得可能是因为除了第一个滑窗之外，后续的滑窗第二帧和第一帧会有一个空间上的跳变。SVD这个basemodel动作幅度有大幅度的跳变就会糊掉，这个对生成的效果有很大影响。

duanjiding commented 4 days ago

Periodic Sampling是用在facial landmark-based generation的。我试过在trajectory上面直接用Periodic Sampling，但是效果会出现糊和抖动的情况。

这里面的原因我觉得可能是因为除了第一个滑窗之外，后续的滑窗第二帧和第一帧会有一个空间上的跳变。SVD这个basemodel动作幅度有大幅度的跳变就会糊掉，这个对生成的效果有很大影响。

确实是这样的现象。我猜测是不是第二个及之后的滑窗中第0帧与第二帧的trajectory跨度太大。引入的运动控制信息在这个时候会出现没有参考，所以运动抖动较大。

MyNiuuu commented 4 days ago

Periodic Sampling是用在facial landmark-based generation的。我试过在trajectory上面直接用Periodic Sampling，但是效果会出现糊和抖动的情况。这里面的原因我觉得可能是因为除了第一个滑窗之外，后续的滑窗第二帧和第一帧会有一个空间上的跳变。SVD这个basemodel动作幅度有大幅度的跳变就会糊掉，这个对生成的效果有很大影响。

确实是这样的现象。我猜测是不是第二个及之后的滑窗中第0帧与第二帧的trajectory跨度太大。引入的运动控制信息在这个时候会出现没有参考，所以运动抖动较大。

对的，正常情况下的inference，SVD生成的第二帧和第一帧是渐变的。但是如果在滑窗的情况下，越靠后的滑窗他的第二帧和第一帧（输入的图片）的跨度就越大。预训练的SVD无法处理这种跨度过大的情况。