Open e4exp opened 3 years ago
近年,Generative Adversarial Networks(GAN)[9]を用いることで,高忠実度の画像合成が大幅に改善された. DCGAN [27]のような初期の作品では、64x64ピクセルまでの解像度の画像を生成することができましたが、BigGAN [3]やStyleGAN [20, 21, 19]のような最新のネットワークでは、512x512ピクセルや1024x1024ピクセルまでのフォトリアリスティックな画像を生成することができます。 生成モデルの品質は大幅に向上しているが、画像生成には依然として多くの計算資源が必要である。 計算量が多いことから、最先端の生成モデルをエッジデバイスに展開することは困難です。 例えば,StyleGAN2 [21] ネットワークは,FFHQ データセットにおいて,1024×1024 ピクセルのサイズのリアルな顔画像を FID=2.84 で生成します. しかし,このネットワークは28.27Mのパラメータを持ち,143.15GMACの計算量を持っています. 我々は,高品質な画像生成のための高解像度生成モデルである,新しい軽量アーキテクチャMobileStyleGANを提案する. オリジナルのStyleGAN2アーキテクチャをベースラインとして、このネットワークの計算困難な部分を再検討し、同等の品質を提供する独自の軽量モデルを作成しました(図1)。 ネットワーク全体のパラメータ数は8.01M、計算量は15.09GMACで、FFHQデータセットではFID=12.38の品質を実現しています。 我々の主な貢献は以下の通りです。
本研究では、エッジデバイスへの展開に適した高忠実度画像合成の問題に取り組みました。 本研究では,スタイルベースの軽量生成ネットワークと,知識抽出に基づく学習パイプラインを提案した. 我々は、トレーニングコードを公開し(https: //github.com/bes-dev/MobileStyleGAN. pytorch)、CPU上で高速にランダムな顔を合成するためのシンプルなpythonライブラリも公開しました(https: //github.com/bes-dev/random_face)。 また,付属のビデオはYouTubeで見ることができます(https://www.youtube.com/playlist?list= PLstKhmdpWBtwsvq_27ALmPbf_mBLmk0uI). 量子化やプルーニングなど、性能や精度をさらに向上させることができる技術もあります。 それらは今後の研究に委ねた。
近年、Generative Adversarial Networks(GAN)を用いた生成画像モデリングが盛んに行われています。 スタイルベースのGANアーキテクチャは、高忠実度の画像合成において最先端の結果をもたらしますが、計算量が非常に多いのが難点です。 本研究では、スタイルベースの生成モデルの性能最適化に焦点を当てています。 StyleGAN2の最も計算困難な部分を分析し、エッジデバイスにスタイルベースの生成ネットワークを展開することを可能にするために、生成ネットワークの変更を提案する。 MobileStyleGANアーキテクチャを導入し、StyleGAN2と比較して、同等の品質を提供しつつ、パラメータ数をx3.5減らし、計算量をx9.5減らしている。