INFO

author

Xintao Wang¹, Kelvin C.K. Chan², Ke Yu¹, Chao Dong³, Chen Change Loy²

affiliation

¹CUHK - SenseTime Joint Lab, The Chinese University of Hong Kong, ²Nanyang Technological University, Singapore, ³ SIAT-SenseTime Joint Lab, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences

conference or year

Winning Solution in NTIRE19 Challenges on Video Restoration and Enhancement (CVPR19 Workshops)

link

arXiv 実装

概要

NTIRE19チャレンジで公開されたREDSというチャレンジングなベンチマークに2つの側面から挑戦した研究. (1)大きな動きを持つ複数のフレームのアライメント (alignment) (2)多様な動きやブレを持つフレームをどう効果的に融合させるか (fusion) この研究ではEnhanced Deformable convolutionsを用いたEDVRというフレームワークを提案.

大きな動きに対応するためにPCD(Pyramid, Cascading, Deformable)アライメントモジュールの提案
時空間的に注目し重要な特徴を強調して復元する TSA(Temporal and Spatial Attention)モジュールを提案

NTIRE19のタスクの全てで1位に位置し, 2位と大差をつけた. ほかにも,deblurring, Super ResolutionのSoTAモデルと比較しても優れた性能が示された.

REDSについて

既存のデータセットと比較して, より大きく複雑なモーションが含まれている.

課題

最近の研究ではfeature extraction, alignment , fusion, reconstructionの4つの側面から構成されるパイプラインでアプローチされる. ここで, オクルージョンや大きな動きや激しいブラーが含まれる場合, alignmentとfusionの設計に課題があると言える.

alignment

ほとんどの既存のアプローチは, ２つのフレームの間のoptical flowを明示的に推定することでアライメントを行っている. また, 別の研究では, dynamic filteringやdeformable convolutionによって暗黙の動き補償を実現. REDSのようなオクルージョン, 大きく複雑な動きを含む動画において, 特にflow baseの手法では, flow推定とwarpingが難しく, 時間がかかる.(大きなモーションだと明示的, 暗黙的にモーションの補正を行うのが難しい)

fusion

整列したフレームからの特徴を融合することはビデオ復元タスクにおいて重要なステップである. 既存手法での多くは畳み込みを全てのフレームに対して行うか, RNNを用いて複数フレームを段階的に融合するかのいずれかである.これらの既存の手法は各フレームの基本的な視覚情報を考慮できていない. いくつかのフレームや領域が不完全なalignmentやブラーの影響を受けているので, 異なるフレームや場所が同じように情報を持っているわけでも, reconstructionにも有益でない.

提案手法

PDC Module

PDCモジュールは, TDANを元に考案された. deformable convolutionを用いて, 特徴レベルで各隣接フレームをreferenceフレームにアライメントする. TDANと異なる点は大きく複雑な動きに対応するためにcoarse to fineでアライメントを行う. 具体的にはOptical flowと同様な考え方で, 低スケールの特徴を大雑把に推定して、アライメントを行い, 次にオフセットとアライメントされた特徴をより大きいスケールで伝播し, 正確な動きの補正を行うといったピラミッド構造を採用. さらにアライメントの後にdeformable convolutionをcascadeすることでアライメントをより頑健にしている.

TSA

TSAは複数のアライメントされた特徴の情報を集約する. referenceフレームと各隣接フレームの特徴の要素ごとの相関を計算して, 時間的なAttentionを導入. 相関係数は, referenceフレームを再構成するときにどれだけ情報量が多いかを示す, 各1における各隣接特徴の重み付けを行う. その後空間的なAttentionを適用して, 各チャンネルの各位置に重みを割り当てることで, チャンネル間, 空間的情報を有効的に活用.

検証

定量評価

定性評価

新規性

PCD alignment, TSA fusion moduleの導入
NTIRE19 challengeの4つのトラック全てで優勝
video super resolution, video deblurringで既存のSoTAモデルより優れた性能を示した.
議論，展望

Comment

date

May 18th, 2021

IsHYuhi / PaperSummary

EDVR: Video Restoration with Enhanced Deformable Convolutional Networks #12