Open e4exp opened 3 years ago
1 はじめに
写真の黎明期から,人々は現実的に見えながらも幻想的な要素を含んだ写真や映像に魅了されてきた. 初期の例としては,「Lincoln's Ghost」(Mumler 1872),「Dirigible Docked on Empire State Building」(Unknown 1930a),「Man on Rooftop with Eleven Men in Formation on his Shoulders」(Unknown 1930b)などがある. これらの作品は、ありふれたものや身近なものを意外な組み合わせで表現しており、私たちの想像力をかきたてます。 飛行船と建物は何の変哲もないものですが、飛行船を建物にドッキングさせたフォトモンタージュは意外性があって面白いものです。 インスタグラムのような画像中心のソーシャルネットワークの出現により、この種の操作された画像やアニメーションは非常に人気があり、広く共有されています。 シネマグラフとは、ほとんどのエリアが静止しており、一部のエリアではシームレスな繰り返しの動きがある動画のことです。 シネマグラフは,写真と動画の境界線上に存在し,アマチュアだけでなく,プロのニュース,広告,ファッション写真などでも利用されています1.
ビデオテクスチャやライブフォトとも呼ばれ、シネマグラフやそのバリエーションを作成するための様々な技術が提案されている[Endo et al. 2019; Holynski et al. 2020; Joshi et al. 2012; Liao et al. 2015, 2013; Schödl et al. 2000; Tompkin et al. 2011; Yeh and Li 2012]。 本研究では,2つの異なる条件でシネマグラフ作成の問題に取り組む.
(1) 入力は,動画ではなく一枚の画像である. (2) 望む出力は,動いている建物のような超現実的なビジュアルである.
1)の条件についてはこれまでも取り組まれてきたが[Endo et al. 2019; Holynski et al. 2020]、(2)の条件が重なった場合には、学習に動画データセットを利用することができないなど、独自の課題が生じる。 1枚の画像を動画に変換する技術は、活発に研究されている分野です。 滝や煙などの自然の物理現象に着目した技術[Endo et al. 2019; Holynski et al. 2020; Okabe et al. 2009, 2018]や、風が自然の風景に与える影響をモデル化する技術[Chuang et al. 2005]などがある。 また、仮想カメラがシーンの周りをパンニングすることで動画をレンダリングしたり[Kopf et al. 2020; Niklaus et al. 2019; Shih et al. 2020]、動画から写真にモーションを転送したり[Hornung et al. 2007; Tesfaldet et al. 2018; Weng et al. 2019]、画像からループする動物のモーションを生成したり[Xu et al. 2008]、単一の画像の摂動のシーケンスを生成したりするものもある[Rott Shaham et al. 2019]。 これらに共通しているのは、現実的な映像を再現(または再構築)していることであり、そのため、オプティカルフローを抽出したり、データドリブンなアプローチを学習したりすることで、現実の画像や映像のデータセットを活用できるという特権を持っています。 前述したように、この作品は、より空想的で、しばしば非現実的な動きをシーンにレンダリングすることを目的としています。 そのため、実写映像のコーパスを利用して、学習ベースのアルゴリズムを簡単に学習させることはできません。 そこで、条件付きランダムフィールド(CRF)とディープピクセルディスクリプタを組み合わせたハイブリッドなアプローチを採用しました。
私たちのアプローチは,画像パッチの自己類似性を利用してモーションフィールドを生成し,これを後にループ動画のレンダリングに利用するものです. 画像の自己類似性の定義は、通常、タスクに依存しており、既存のアルゴリズムは、反復とみなされるものが制限されすぎているか(Pritts et al.2014)、我々のニーズには遅すぎることがわかりました(Aiger et al.2012; Lukáč et al.2017)。 対照的に,私たちは,パターンが存在する場合にはそれを見つけることができるが,繰り返しの少ないテクスチャであってもモーションを生成することができる柔軟性のあるアルゴリズムを求めている。 また、携帯電話でインタラクティブな速度で実行できるような効率的なアルゴリズムを求めています。 理想的なシステムは、自然の風景(滝など)や人間が作ったもの(ビルなど)など、あらゆる種類の入力画像に対応できるものです。 セクション5で示すように、我々のシステムはより領域に特化しており、繰り返しパターンを持つ画像では最先端の結果を得ることができ、構造化されていない画像では妥当な結果(ただし、最先端の結果には劣る)を得ることができました。 それにもかかわらず、我々のユーザーは全ての結果に満足していると報告しており、全てのドメインで優れた統一フレームワークの開発は今後の課題としている。
我々の主な貢献は以下の通りです。 (1) アニメーションの動きに適した、繰り返しパターンを検出するための高速な2段階のアルゴリズム。第1段階では、縮小された1次元マッチング問題を効率的に解き、第2段階では、CRF定式化を用いてその結果を2次元に拡張する(セクション3.1.1)。 (2) 1枚の画像からループ動画を生成するシステムで、実写のデータセットでは観察できない超現実的な動きを作り出すことができます(3.2項)。 (3) 初心者にも熟練者にも使える,シネマグラフ作成のためのインタラクティブなモバイルアプリ(セクション5.3).さらに,14万人以上のユーザーを対象とした大規模なユーザー満足度評価により,本システムの使いやすさと美しい仕上がりを定量的に証明しています.
本論文では,1枚の画像からシームレスなアニメーションループを生成するアルゴリズムを紹介する. このアルゴリズムは、建物の窓や階段の段差などの周期的な構造を検出し、構造の各セグメントを、ユーザーまたは自動で選択した主な動きの方向に沿って隣接するセグメントにマッピングする、自明ではない変位ベクトルフィールドを生成します。 この変位フィールドは,適切な時間的・空間的スムージングとともに,画像をワープさせ,連続的なアニメーションループのフレームを生成するために使用されます. 当社のシネマグラフは、モバイル機器で1秒以内に作成されます。 14万人以上のユーザーが当社のアプリをダウンロードし、350,000枚以上のシネマグラフをエクスポートしました。 さらに,2つのユーザー調査を実施したところ,ユーザーは,シュールで構造化されたシネマグラフを作成するために,より手作業的なアプローチと比較して,また従来の手法と比較して,当社の手法を好むことがわかりました.