hzwer / ECCV2022-RIFE

ECCV2022 - Real-Time Intermediate Flow Estimation for Video Frame Interpolation
MIT License
4.35k stars 432 forks source link

关于模型训练细节问题 #313

Closed Liming-belief closed 1 year ago

Liming-belief commented 1 year ago

你好 我尝试利用ECCV2022-RIFE/train脚本微调v4.6模型,但是生成的结果完全不如v4.6的效果。请问您在训练v4.6版本时所用的损失函数和ECCV2022-RIFE/RIFE.py中的损失函数相同吗。我观察到IFNet_HDv3在推理时fastmode=True,那么在训练时是否开启fastmode。 感谢您的回答

hzwer commented 1 year ago

v4.6 是基于 RIFEm 的面向应用版本 在设计面向视觉效果的模型时,我们发现了几个 trick

练时随机对图片进行 resize 2x 增广,可以改进在实用的 1080p 视频插帧效果 去掉 refinenet 主观效果更好,我们认为视觉效果可能主要取决于光流估计的稳定性和精度,这样也能使网络明显加速,训练前训练后去掉都可以 训练时间延长 4x,模型依然在涨点,可能这是主要改进原因 Loss 选用 loss_l1 + loss_vgg

Liming-belief commented 1 year ago

感谢您的回答,让我收获很大,训练时随机对图片进行 resize 2x 增广是在crop之前,还是crop之后呢

hzwer commented 1 year ago

crop 之前 线下联系后,发现还有个比较大的差异是 我使用了 Vimeo-Sep 数据集而非三帧数据集 可能运动幅度有差异