Open e4exp opened 3 years ago
Frechet Inception Distance (FID) メトリック [ ´ 23] は,生成モデルの評価に広く用いられています [23, 28, 8, 46, 30]. FIDの計算には、画像のリサイズ、量子化、フォーマットなど、いくつかの微妙な実装上の決定が含まれています。 一見、何の問題もないように見えますが、これらの選択は実際に最終的なスコアに大きな影響を与えることがわかりました。 図1の例では、同じ入力画像でも、画像処理ライブラリによって結果が大きく異なり、そのほとんどが不適切なフィルタリングの実装によるエイリアシングアーチファクトを含んだ不正確なものでした。 しかし,研究者たちは,FIDスコアを計算する際に,異なるリサイズライブラリ,画像フォーマット,量子化など,別々のプロトコルを使用しています. そのため、論文間の比較が非常に困難になっています。 報告されたFIDスコアは、同じ論文の中でしか意味をなさないことが多い。 しかし,他の論文の実験を繰り返すことは必ずしも可能ではなく,FIDスコアを再計算せずにコピー&ペーストすることが一般的に行われています。 これは、比較するスコアが実際には異なるプロトコルを使用している可能性があるため、問題となります。 私たちは、この問題の核心がリサイズ操作にあることを突き止めました。 図1に示すように、広く使用されている深層学習ライブラリ(TensorFlowやPyTorchなど)の画像リサイズ関数は、標準的なコンピュータビジョンや信号処理の教科書や講義で教えられている正しいフィルタリング手順に従っていない実装のため、深刻なエイリアシングアーチファクトを伴う結果になることが多い。 さらに,我々の実験では,画像圧縮と量子化の両方がFIDスコアに大きな影響を与える一方で,その結果は人間の知覚やPSNRやLPIPSなどの画像評価メトリクスにはほとんど影響を与えないことが示されている[58].
ここでは、FIDスコアを計算する際によくある落とし穴について説明し、それを回避するための様々な方法について言及します。 例えば,計算機資源が限られているために低解像度の画像(128または256)でモデルを学習する場合,データセット画像の準備に異なるリサイズライブラリや画像フォーマットを使用することがあります. このため、低解像度画像でのモデル比較には、全く新しいレベルの微妙な問題が発生します。 上記の問題に対処するため、我々は標準化されたプロトコルを推奨し、使いやすいFID評価ライブラリであるcleanfid(github.com/GaParmar/clean-fid)を提供しています。 GANのような生成モデルを学習・評価する際には、低レベルの画像処理に注意を払う必要があるというのが、今回の収穫です。 また、KID [5]のような他の生成モデル評価指標においても、同じような画像処理のステップが含まれるため、同じ違いが当てはまることを示しています。 詳細および結果については、当社のウェブサイトをご覧ください。
これまで、一見取るに足らないような実装の詳細に対して、驚くほど大きな感度を示してきました。 我々の観察に基づき、生成モデルをトレーニングし、対応するFIDスコアを計算する際のいくつかのベストプラクティスについて議論する。 ここでは、データセットのネイティブ解像度(FFHQ[28]データセットでは1024×1024)でモデルを学習する場合と、縮小された解像度(256×256)でモデルを学習する場合の2つのケースに分けて説明します。 ネイティブ解像度でモデルを学習するためには,実画像のψFIDと生成画像のψbFIDという2つのリサイズ処理を行う必要がある. 図1、図3に示した定性的な結果、および4.1節、4.2節に示した定量的な結果に基づき、PILライブラリが実装するバイキュービック法を使用することをお勧めします。 低い解像度でモデルをトレーニングする場合、3つのリサイズ操作ψdata, ψFID, ψbFIDが必要となる。 4.3節の結論に従い、3つの操作すべてにPIL - bicubic法を使用し、同じライブラリで実装された同じリサイズ法を使用する他の手法とのみ比較することを推奨する。 データセットが圧縮されていないPNG画像で構成されている場合には、最高品質であってもJPEG圧縮を使用しないように注意する。 FIDスコアを計算する際には、多くの詳細を把握する必要があります。 手順に不備があると、他の手法と比較できない結果になってしまいます。 特に、リサイズ処理と画像の量子化・圧縮が影響します。 比較を容易にし、矛盾した比較を避け、正しく実装された重要な操作の使用を奨励するために、私たちはgithub.com/GaParmar/clean-fidで使いやすいライブラリであるclean-fidを提供しています。 また、様々な解像度の標準的なベンチマークに対して、事前に計算されたInception機能[52]を提供しています。
フレシェ・インセプション・ディスタンス(FID)スコアが、異なる画像処理ライブラリ間での一貫性のない、しばしば不正確な実装に対してどのような感度を持つかを調査しました。 FIDスコアは生成モデルの評価に広く使われていますが、FIDの実装はそれぞれ異なる低レベルの画像処理プロセスを使用しています。 一般的に使用されている深層学習ライブラリの画像リサイズ関数は、しばしばエイリアシングアーチファクトを引き起こします。 我々は、FID計算のために数多くの微妙な選択を行う必要があり、これらの選択に一貫性がないと、FIDスコアが大きく異なることになることを観察した。 特に、以下のような選択が重要であることを示す。
(1)使用する画像リサイズライブラリの選択、 (2)使用する補間カーネルの選択、 (3)画像を表現する際に使用するエンコーディングの選択。
さらに、FIDスコアを正確に計算するために、避けるべき多くの一般的な落とし穴を説明し、推奨事項を提供します。 また,提案した推奨事項を簡単に使えるように最適化した実装を,添付のコードで提供する.
https://www.cs.cmu.edu/~clean-fid/