Open tkuri opened 3 years ago
単眼画像のシーケンスから3DシーンフローとDepthを自己教師で推定する。従来手法のデコーダ設計の限界を指摘し、学習が安定するようなsplitデコーダに変更し、また3Dシーンフローの時間的な一貫性を利用しConvLSTMを介して以前の推定値を伝搬させていることが技術的なキモ。
SOTAかつ実行時間の高速化を達成。半教師の手法との性能差も縮めたとのこと。
https://arxiv.org/abs/2105.02216
https://github.com/visinf/multi-mono-sf
論文概要
単眼画像のシーケンスから3DシーンフローとDepthを自己教師で推定する。従来手法のデコーダ設計の限界を指摘し、学習が安定するようなsplitデコーダに変更し、また3Dシーンフローの時間的な一貫性を利用しConvLSTMを介して以前の推定値を伝搬させていることが技術的なキモ。
SOTAかつ実行時間の高速化を達成。半教師の手法との性能差も縮めたとのこと。
https://arxiv.org/abs/2105.02216
Code
https://github.com/visinf/multi-mono-sf