在运动大的数据集上finetune？

hzwer / ECCV2022-RIFE

ECCV2022 - Real-Time Intermediate Flow Estimation for Video Frame Interpolation

MIT License

4.32k stars 430 forks source link

在运动大的数据集上finetune？ #257

Closed zhouzhengguang closed 2 years ago

zhouzhengguang commented 2 years ago

大佬，你好，我最近在做插帧的工作，觉得RIFE效果很好，想问两个问题： 1）我在测试运动幅度较大的视频时，发现RIFE往往插不出运动大的物体部分，视频播放起来比较奇怪，不知道你对运动大的视频有什么处理建议吗？ 2）我在测试XVFI算法时，看到他对运动大的物体插帧效果比较类似cv2.addweighted的效果，视频看起来连续些，不知道你用他的数据集[X4K1000FPS]做过训练finetune吗，效果会有所改进吗？ 3）不知道你用过剪映里面的插帧功能吗？感觉他们做的效果还挺不错的，还非常快

期待回复

hzwer commented 2 years ago

1）如果你要训练，建议加 resize 增广等；如果只是推断，建议先在小图推断光流，再放缩回原图：这个功能在 practical-RIFE 中实现 2）我训练过，效果不大，但是用 1）中的 trick 能显著提升 3）你说的是某个软件吗？mac 的软件？AI 方法的问题就是推断策略没有好好调，按理说 AI 方法的上限会高一些。

zhouzhengguang commented 2 years ago

1）请问你说的小图光流是model中定义的吗，是在practical-RIFE哪个文件中呢？ 2）所以说XVFI看起来流畅不是因为其数据集，而是网络设计比较合适吗？ 3）剪映就是手机上的app，有个剪辑-慢速功能，插帧看起来比较连续

hzwer commented 2 years ago

1) inference 中有个 scale_list；简单来说你可以在 1/2 分辨率上的图推断光流，把推断出的结果放大 2x。 2) 我的尝试中感觉，加增广就能显著改善其它模型在大分辨率下的效果；ICCV21-ABME 模型宣称不需要 XVFI 的训练集也能超过它的性能。 3) 明白了，感谢分享。

zhouzhengguang commented 2 years ago

https://user-images.githubusercontent.com/18525390/172320167-25ce54a3-514c-4b8d-9699-2f0e856b2c20.mp4 这个是用剪映app慢速10倍的效果，看起来他只对运动的物体进行插帧，而不动的背景都可以维持高清，请问一下你觉得用哪种方法可以做出这样的效果吗？

hzwer commented 2 years ago

可以让模型再预测一个 blend mask，来维持一些区域不变

dawei03896 commented 2 years ago

可以让模型再预测一个 blend mask，来维持一些区域不变

大佬，具体加一个 blend mask，可以详细说说吗？

pxEkin commented 2 years ago

1）请问你说的小图光流是model中定义的吗，是在practical-RIFE哪个文件中呢？ 2）所以说XVFI看起来流畅不是因为其数据集，而是网络设计比较合适吗？ 3）剪映就是手机上的app，有个剪辑-慢速功能，插帧看起来比较连续

加qq交流下？我也在弄这块，对标vsco，，707654930

hzwer commented 2 years ago

关于 blend mask 怎么加，我也没有过多尝试。但是我看过以前的一些比赛方案，会让模型额外预测一个通道，表示某些区域是不变的（可能是字幕，台标），然后再把插帧后的结果贴上这些不动的区域。