hzwer / ECCV2022-RIFE

ECCV2022 - Real-Time Intermediate Flow Estimation for Video Frame Interpolation
MIT License
4.35k stars 432 forks source link

关于RIFE_HDv3的一些疑惑 #269

Closed sranqiu closed 1 year ago

sranqiu commented 2 years ago

模型很好用!好像RIFE_HDv3的效果更好,RIFE_HDv3细节上和论文的RIFE有什么不同呢?

hzwer commented 2 years ago

它是基于 RIFEm 的面向应用版本 在设计面向视觉效果的模型时,我们实验性地发现了几个 trick

  1. pyramid 多一个阶段,再加上训练时随机对图片进行 resize 2x 增广,可以改进在实用的 1080p 视频插帧效果
  2. 去掉 refinenet 主观效果更好,我们认为视觉效果可能主要取决于光流估计的稳定性和精度,这样也能使网络明显加速
  3. 训练时间延长 4x,模型依然在涨点
  4. 在光流上加上适当的平滑性约束,可以避免一些重复 pattern case 上的预测混乱问题
zzh-tech commented 1 year ago

除了以上4点,RIFE_HDv3是否有使用更多的数据呢?

hzwer commented 1 year ago

@zzh-tech 加上ATD12k,但是没明显效果

zzh-tech commented 1 year ago

谢谢答复~

它是基于 RIFEm 的面向应用版本

RIFEm是arbitrary time的吧?我看RIFE_HDv3是fixed time版本,为什么说是基于RIFEm的呢?

我的观察是arbitrary time模型的效果普遍不如fixed time模型通过iteration插值得到结果的效果。 请问arbitrary time除了可以指定时间以外,还有什么优势呢?

pyramid 多一个阶段

我发现最新版本,无论是refinenet,还是contextnet,unet都去掉了,只剩下3个IFBlock。 意思是之前的contextnet和unet对实际视觉效果也没啥帮助吗?