Open IsHYuhi opened 3 years ago
Naoto Inoue, Student Member, IEEE, and Toshihiko Yamasaki, Member, IEEE
IEEE TCSVT 2020
arXiv 実装
影の除去は,CVやCGにおいて必須のタスクである.近年のshadow removal手法は,shadow/shadow-freeまたはshadow/shadow-free/mask imageの実ペアデータを用いて,畳み込みニューラルネットワーク(CNN)を学習させるものである.しかし,大規模かつ多様で正確なデータセットを得ることは大きな課題であり,shapeやintensityが未知の影画像に対する学習モデルの性能を制限している.この研究では新しい大規模なshadow/shadow-free/matt imageトリプレットのデータセットと, それを合成するためのパイプラインSynShadowを提案. Shadow-free, matt image, および影の減衰パラメータの任意の組み合わせを与えて, 影の画像を合成. SynShadowで学習したShadow Removalモデルは, いくつかのベンチマークにおいて, 様々な形状や強度の影を除去するのに十分な性能を発揮することを実証. さらに, SynShadowで事前に学習したモデルをfine-tuningするだけで, 既存の影の検出・除去モデルが改善されることも示した.
実世界で得られたデータはシーンの数や種類が大幅に制限され, ノイズや偏りを引き起こす可能性がある. このようなデータから学習された影除去モデルは,Mask-ShadowGAN で議論されているように,汎化性能が低い.他にも,太陽光の下で影のない領域が変化しないという保証はないため,ペアの学習画像の信頼性が低い. この課題を克服するために,以下のいくつかのアプローチが提案されている.
Mask-ShadowGAN unpairで学習(CycleGAN等).最適化には制約があり,しばしば性能が低くなる.
SP+M(Shadow Image Decomposition) 既存のデータセットを補強.影をわずかに暗くしたり明るくしたりするだけなので,このアプローチで生成される画像の種類は限られている.
DHAN 影のない画像とマスク画像のペアの組み合わせを与えて,新しい影画像を得る.しかし,生成される影の種類は限られいて,特に影の強度の点で限界がある.これは,変換のマッピングがデータドリブンな方法で完全に学習されるためである.
この研究では,大規模かつ多様でありながら現実的なデータセットを生成.前述の影除去における課題に取り組んでいる.shadow imageは,
の3つの要素で構成される.従来の合成手法 DHAN と比較して,これらの要素が互いに独立していることが重要であることがわかった.iii)については,物理的に根拠のある影の照明モデルThe Shadow Meets the Mask: Pyramid-Based Shadow Removal を拡張.このモデルのパラメータセットをランダムにサンプリングするだけで,多様で現実的な影の減衰を得ることができるように,モデルを変換する.
point pの放射強度(intensity)がI(p),放射輝度(lumminance)が L(p),反射率(reflectance)がR(p). * λは対応するwave length
dが一次光(primary),aが環境光(ambient).
オブジェクトによって一次光が遮られているのでIdarkは上記のようになる. ここでa(p)は減衰係数.
写真内の画素における実際の色は, (5)の両辺をカメラの応答関数で積分することで得られる.これはlitとdarkの強度関係のアフィン性を変えないと仮定している.そのため式は以下のようになり,
αとγは影の減衰特性のパラメーターで物質の表面やライティングなどによって変わる.ノイズの存在や表面の反射率のばらつきにより完全ではないものの,実際の写真によく適用できることが実証されている.
αとγを(l0, l1, l2, s1)の4つに変換する.ISTD+やSRDデータセットから,影領域とそれ以外の領域が(l0, l1, l2)が互いに相関することがわかった. l0>l1>l2となるのは空の青い光(環境光)が原因であると考えられる.
また,domain randomizationから着想を得て,パラメータをサンプルする.
INFO
author
Naoto Inoue, Student Member, IEEE, and Toshihiko Yamasaki, Member, IEEE
affiliation
conference or year
IEEE TCSVT 2020
link
arXiv 実装
概要
影の除去は,CVやCGにおいて必須のタスクである.近年のshadow removal手法は,shadow/shadow-freeまたはshadow/shadow-free/mask imageの実ペアデータを用いて,畳み込みニューラルネットワーク(CNN)を学習させるものである.しかし,大規模かつ多様で正確なデータセットを得ることは大きな課題であり,shapeやintensityが未知の影画像に対する学習モデルの性能を制限している.この研究では新しい大規模なshadow/shadow-free/matt imageトリプレットのデータセットと, それを合成するためのパイプラインSynShadowを提案. Shadow-free, matt image, および影の減衰パラメータの任意の組み合わせを与えて, 影の画像を合成. SynShadowで学習したShadow Removalモデルは, いくつかのベンチマークにおいて, 様々な形状や強度の影を除去するのに十分な性能を発揮することを実証. さらに, SynShadowで事前に学習したモデルをfine-tuningするだけで, 既存の影の検出・除去モデルが改善されることも示した.
実世界で得られたデータはシーンの数や種類が大幅に制限され, ノイズや偏りを引き起こす可能性がある. このようなデータから学習された影除去モデルは,Mask-ShadowGAN で議論されているように,汎化性能が低い.他にも,太陽光の下で影のない領域が変化しないという保証はないため,ペアの学習画像の信頼性が低い. この課題を克服するために,以下のいくつかのアプローチが提案されている.
Mask-ShadowGAN unpairで学習(CycleGAN等).最適化には制約があり,しばしば性能が低くなる.
SP+M(Shadow Image Decomposition) 既存のデータセットを補強.影をわずかに暗くしたり明るくしたりするだけなので,このアプローチで生成される画像の種類は限られている.
DHAN 影のない画像とマスク画像のペアの組み合わせを与えて,新しい影画像を得る.しかし,生成される影の種類は限られいて,特に影の強度の点で限界がある.これは,変換のマッピングがデータドリブンな方法で完全に学習されるためである.
この研究では,大規模かつ多様でありながら現実的なデータセットを生成.前述の影除去における課題に取り組んでいる.shadow imageは,
の3つの要素で構成される.従来の合成手法 DHAN と比較して,これらの要素が互いに独立していることが重要であることがわかった.iii)については,物理的に根拠のある影の照明モデルThe Shadow Meets the Mask: Pyramid-Based Shadow Removal を拡張.このモデルのパラメータセットをランダムにサンプリングするだけで,多様で現実的な影の減衰を得ることができるように,モデルを変換する.
提案手法
point pの放射強度(intensity)がI(p),放射輝度(lumminance)が L(p),反射率(reflectance)がR(p). * λは対応するwave length
dが一次光(primary),aが環境光(ambient).
オブジェクトによって一次光が遮られているのでIdarkは上記のようになる. ここでa(p)は減衰係数.
写真内の画素における実際の色は, (5)の両辺をカメラの応答関数で積分することで得られる.これはlitとdarkの強度関係のアフィン性を変えないと仮定している.そのため式は以下のようになり,
αとγは影の減衰特性のパラメーターで物質の表面やライティングなどによって変わる.ノイズの存在や表面の反射率のばらつきにより完全ではないものの,実際の写真によく適用できることが実証されている.
αとγを(l0, l1, l2, s1)の4つに変換する.ISTD+やSRDデータセットから,影領域とそれ以外の領域が(l0, l1, l2)が互いに相関することがわかった. l0>l1>l2となるのは空の青い光(環境光)が原因であると考えられる.
また,domain randomizationから着想を得て,パラメータをサンプルする.
検証
新規性
議論,展望
Comment
date