1CUHK - SenseTime Joint Lab, The Chinese University of Hong Kong, 2Nanyang Technological University, Singapore, 3 SIAT-SenseTime Joint Lab, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
conference or year
Winning Solution in NTIRE19 Challenges on Video Restoration and Enhancement (CVPR19 Workshops)
INFO
author
Xintao Wang1, Kelvin C.K. Chan2, Ke Yu1, Chao Dong3, Chen Change Loy2
affiliation
1CUHK - SenseTime Joint Lab, The Chinese University of Hong Kong, 2Nanyang Technological University, Singapore, 3 SIAT-SenseTime Joint Lab, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
conference or year
Winning Solution in NTIRE19 Challenges on Video Restoration and Enhancement (CVPR19 Workshops)
link
arXiv 実装
概要
NTIRE19チャレンジで公開されたREDSというチャレンジングなベンチマークに2つの側面から挑戦した研究. (1)大きな動きを持つ複数のフレームのアライメント (alignment) (2)多様な動きやブレを持つフレームをどう効果的に融合させるか (fusion) この研究ではEnhanced Deformable convolutionsを用いたEDVRというフレームワークを提案.
NTIRE19のタスクの全てで1位に位置し, 2位と大差をつけた. ほかにも,deblurring, Super ResolutionのSoTAモデルと比較しても優れた性能が示された.
REDSについて
既存のデータセットと比較して, より大きく複雑なモーションが含まれている.
課題
最近の研究ではfeature extraction, alignment , fusion, reconstructionの4つの側面から構成されるパイプラインでアプローチされる. ここで, オクルージョンや大きな動きや激しいブラーが含まれる場合, alignmentとfusionの設計に課題があると言える.
alignment
ほとんどの既存のアプローチは, 2つのフレームの間のoptical flowを明示的に推定することでアライメントを行っている. また, 別の研究では, dynamic filteringやdeformable convolutionによって暗黙の動き補償を実現. REDSのようなオクルージョン, 大きく複雑な動きを含む動画において, 特にflow baseの手法では, flow推定とwarpingが難しく, 時間がかかる.(大きなモーションだと明示的, 暗黙的にモーションの補正を行うのが難しい)
fusion
整列したフレームからの特徴を融合することはビデオ復元タスクにおいて重要なステップである. 既存手法での多くは畳み込みを全てのフレームに対して行うか, RNNを用いて複数フレームを段階的に融合するかのいずれかである.これらの既存の手法は各フレームの基本的な視覚情報を考慮できていない. いくつかのフレームや領域が不完全なalignmentやブラーの影響を受けているので, 異なるフレームや場所が同じように情報を持っているわけでも, reconstructionにも有益でない.
提案手法
PDC Module
PDCモジュールは, TDANを元に考案された. deformable convolutionを用いて, 特徴レベルで各隣接フレームをreferenceフレームにアライメントする. TDANと異なる点は大きく複雑な動きに対応するためにcoarse to fineでアライメントを行う. 具体的にはOptical flowと同様な考え方で, 低スケールの特徴を大雑把に推定して、アライメントを行い, 次にオフセットとアライメントされた特徴をより大きいスケールで伝播し, 正確な動きの補正を行うといったピラミッド構造を採用. さらにアライメントの後にdeformable convolutionをcascadeすることでアライメントをより頑健にしている.
TSA
TSAは複数のアライメントされた特徴の情報を集約する. referenceフレームと各隣接フレームの特徴の要素ごとの相関を計算して, 時間的なAttentionを導入. 相関係数は, referenceフレームを再構成するときにどれだけ情報量が多いかを示す, 各1における各隣接特徴の重み付けを行う. その後空間的なAttentionを適用して, 各チャンネルの各位置に重みを割り当てることで, チャンネル間, 空間的情報を有効的に活用.
検証
定量評価
定性評価
新規性
議論,展望
Comment
date
May 18th, 2021