hzwer / ECCV2022-RIFE

ECCV2022 - Real-Time Intermediate Flow Estimation for Video Frame Interpolation
MIT License
4.32k stars 430 forks source link

在运动大的数据集上finetune? #257

Closed zhouzhengguang closed 2 years ago

zhouzhengguang commented 2 years ago

大佬,你好,我最近在做插帧的工作,觉得RIFE效果很好,想问两个问题: 1)我在测试运动幅度较大的视频时,发现RIFE往往插不出运动大的物体部分,视频播放起来比较奇怪,不知道你对运动大的视频有什么处理建议吗? 2)我在测试XVFI算法时,看到他对运动大的物体插帧效果比较类似cv2.addweighted的效果,视频看起来连续些,不知道你用他的数据集[X4K1000FPS]做过训练finetune吗,效果会有所改进吗? 3)不知道你用过剪映里面的插帧功能吗?感觉他们做的效果还挺不错的,还非常快

期待回复

hzwer commented 2 years ago

1)如果你要训练,建议加 resize 增广等;如果只是推断,建议先在小图推断光流,再放缩回原图:这个功能在 practical-RIFE 中实现 2)我训练过,效果不大,但是用 1)中的 trick 能显著提升 3)你说的是某个软件吗?mac 的软件?AI 方法的问题就是推断策略没有好好调,按理说 AI 方法的上限会高一些。

zhouzhengguang commented 2 years ago

1)请问你说的小图光流是model中定义的吗,是在practical-RIFE哪个文件中呢? 2)所以说XVFI看起来流畅不是因为其数据集,而是网络设计比较合适吗? 3)剪映就是手机上的app,有个剪辑-慢速功能,插帧看起来比较连续

hzwer commented 2 years ago

1) inference 中有个 scale_list;简单来说你可以在 1/2 分辨率上的图推断光流,把推断出的结果放大 2x。 2) 我的尝试中感觉,加增广就能显著改善其它模型在大分辨率下的效果;ICCV21-ABME 模型宣称不需要 XVFI 的训练集也能超过它的性能。 3) 明白了,感谢分享。

zhouzhengguang commented 2 years ago

https://user-images.githubusercontent.com/18525390/172320167-25ce54a3-514c-4b8d-9699-2f0e856b2c20.mp4 这个是用剪映app慢速10倍的效果,看起来他只对运动的物体进行插帧,而不动的背景都可以维持高清,请问一下你觉得用哪种方法可以做出这样的效果吗?

hzwer commented 2 years ago

可以让模型再预测一个 blend mask,来维持一些区域不变

dawei03896 commented 2 years ago

可以让模型再预测一个 blend mask,来维持一些区域不变

大佬,具体加一个 blend mask,可以详细说说吗?

pxEkin commented 2 years ago

1)请问你说的小图光流是model中定义的吗,是在practical-RIFE哪个文件中呢? 2)所以说XVFI看起来流畅不是因为其数据集,而是网络设计比较合适吗? 3)剪映就是手机上的app,有个剪辑-慢速功能,插帧看起来比较连续

加qq交流下? 我也在弄这块,对标vsco,,707654930

hzwer commented 2 years ago

关于 blend mask 怎么加,我也没有过多尝试。但是我看过以前的一些比赛方案,会让模型额外预测一个通道,表示某些区域是不变的(可能是字幕,台标),然后再把插帧后的结果贴上这些不动的区域。