MyNiuuu / MOFA-Video

Official Pytorch implementation for MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model.
https://myniuuu.github.io/MOFA_Video
Other
358 stars 22 forks source link

Periodic Sampling for Longer Animation效果复现的问题 #21

Closed duanjiding closed 4 days ago

duanjiding commented 4 days ago

按照论文中Periodic Sampling for Longer Animation部分的方案,我在原代码的基础上,在denoise step中将latent按照滑窗大小进行拆分后分别通过unet模型,然后在合并窗口。但是复现后发现物体的运动总出现抖动,不知道怎么回事,有人遇到类似的问题吗?

MyNiuuu commented 4 days ago

Periodic Sampling是用在facial landmark-based generation的。我试过在trajectory上面直接用Periodic Sampling,但是效果会出现糊和抖动的情况。

这里面的原因我觉得可能是因为除了第一个滑窗之外,后续的滑窗第二帧和第一帧会有一个空间上的跳变。SVD这个basemodel动作幅度有大幅度的跳变就会糊掉,这个对生成的效果有很大影响。

duanjiding commented 4 days ago

Periodic Sampling是用在facial landmark-based generation的。我试过在trajectory上面直接用Periodic Sampling,但是效果会出现糊和抖动的情况。

这里面的原因我觉得可能是因为除了第一个滑窗之外,后续的滑窗第二帧和第一帧会有一个空间上的跳变。SVD这个basemodel动作幅度有大幅度的跳变就会糊掉,这个对生成的效果有很大影响。

确实是这样的现象。我猜测是不是第二个及之后的滑窗中第0帧与第二帧的trajectory跨度太大。引入的运动控制信息在这个时候会出现没有参考,所以运动抖动较大。

MyNiuuu commented 4 days ago

Periodic Sampling是用在facial landmark-based generation的。我试过在trajectory上面直接用Periodic Sampling,但是效果会出现糊和抖动的情况。 这里面的原因我觉得可能是因为除了第一个滑窗之外,后续的滑窗第二帧和第一帧会有一个空间上的跳变。SVD这个basemodel动作幅度有大幅度的跳变就会糊掉,这个对生成的效果有很大影响。

确实是这样的现象。我猜测是不是第二个及之后的滑窗中第0帧与第二帧的trajectory跨度太大。引入的运动控制信息在这个时候会出现没有参考,所以运动抖动较大。

对的,正常情况下的inference,SVD生成的第二帧和第一帧是渐变的。但是如果在滑窗的情况下,越靠后的滑窗他的第二帧和第一帧(输入的图片)的跨度就越大。预训练的SVD无法处理这种跨度过大的情况。