IsHYuhi / PaperSummary

Summaries of Papers in Japanese/日本語での論文要旨
3 stars 1 forks source link

EDVR: Video Restoration with Enhanced Deformable Convolutional Networks #12

Open IsHYuhi opened 3 years ago

IsHYuhi commented 3 years ago

INFO

author

Xintao Wang1, Kelvin C.K. Chan2, Ke Yu1, Chao Dong3, Chen Change Loy2

affiliation

1CUHK - SenseTime Joint Lab, The Chinese University of Hong Kong, 2Nanyang Technological University, Singapore, 3 SIAT-SenseTime Joint Lab, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences

conference or year

Winning Solution in NTIRE19 Challenges on Video Restoration and Enhancement (CVPR19 Workshops)

link

arXiv 実装

概要

NTIRE19チャレンジで公開されたREDSというチャレンジングなベンチマークに2つの側面から挑戦した研究. (1)大きな動きを持つ複数のフレームのアライメント (alignment) (2)多様な動きやブレを持つフレームをどう効果的に融合させるか (fusion) この研究ではEnhanced Deformable convolutionsを用いたEDVRというフレームワークを提案.

NTIRE19のタスクの全てで1位に位置し, 2位と大差をつけた. ほかにも,deblurring, Super ResolutionのSoTAモデルと比較しても優れた性能が示された.

REDSについて

既存のデータセットと比較して, より大きく複雑なモーションが含まれている.

課題

最近の研究ではfeature extraction, alignment , fusion, reconstructionの4つの側面から構成されるパイプラインでアプローチされる. ここで, オクルージョンや大きな動きや激しいブラーが含まれる場合, alignmentとfusionの設計に課題があると言える.

alignment

ほとんどの既存のアプローチは, 2つのフレームの間のoptical flowを明示的に推定することでアライメントを行っている. また, 別の研究では, dynamic filteringやdeformable convolutionによって暗黙の動き補償を実現. REDSのようなオクルージョン, 大きく複雑な動きを含む動画において, 特にflow baseの手法では, flow推定とwarpingが難しく, 時間がかかる.(大きなモーションだと明示的, 暗黙的にモーションの補正を行うのが難しい)

fusion

整列したフレームからの特徴を融合することはビデオ復元タスクにおいて重要なステップである. 既存手法での多くは畳み込みを全てのフレームに対して行うか, RNNを用いて複数フレームを段階的に融合するかのいずれかである.これらの既存の手法は各フレームの基本的な視覚情報を考慮できていない. いくつかのフレームや領域が不完全なalignmentやブラーの影響を受けているので, 異なるフレームや場所が同じように情報を持っているわけでも, reconstructionにも有益でない.

提案手法

image

PDC Module

PDCモジュールは, TDANを元に考案された. deformable convolutionを用いて, 特徴レベルで各隣接フレームをreferenceフレームにアライメントする. TDANと異なる点は大きく複雑な動きに対応するためにcoarse to fineでアライメントを行う. 具体的にはOptical flowと同様な考え方で, 低スケールの特徴を大雑把に推定して、アライメントを行い, 次にオフセットとアライメントされた特徴をより大きいスケールで伝播し, 正確な動きの補正を行うといったピラミッド構造を採用. さらにアライメントの後にdeformable convolutionをcascadeすることでアライメントをより頑健にしている. image image

TSA

TSAは複数のアライメントされた特徴の情報を集約する. referenceフレームと各隣接フレームの特徴の要素ごとの相関を計算して, 時間的なAttentionを導入. 相関係数は, referenceフレームを再構成するときにどれだけ情報量が多いかを示す, 各1における各隣接特徴の重み付けを行う. その後空間的なAttentionを適用して, 各チャンネルの各位置に重みを割り当てることで, チャンネル間, 空間的情報を有効的に活用. image image

検証

定量評価

image

定性評価

image

新規性