Self-Supervised Multi-Frame Monocular Scene Flow

論文概要

単眼画像のシーケンスから3DシーンフローとDepthを自己教師で推定する。従来手法のデコーダ設計の限界を指摘し、学習が安定するようなsplitデコーダに変更し、また3Dシーンフローの時間的な一貫性を利用しConvLSTMを介して以前の推定値を伝搬させていることが技術的なキモ。

SOTAかつ実行時間の高速化を達成。半教師の手法との性能差も縮めたとのこと。