agatan / paper-reading-notes

読んだ論文の管理とメモ置き場
5 stars 0 forks source link

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks #27

Open agatan opened 5 years ago

agatan commented 5 years ago

CNN Model の width, depth, resolution すべてをバランス良く調整することでリソース効率の良いアーキテクチャをつくる話。 ResNet-50 と、同等の FLOPS である EfficientNet-B4 を ImageNet top-1 accuracy で比較すると、76.3% v.s. 82.6% と優位な性能向上が確認できた。 ImageNet 以外のデータに transfer したときも 5/8 のデータセットで SotA & 他の Network より最大 1/ 21 のパラメータ数。

Compound Model Scaling

リソール効率の制約付きでモデルを設計するのは難しい & コストが高い。(design space が広すぎる) 単純に「ベースとなるモデルを scale させる」だけでリソース効率を見たつつ良い感じのモデルができたら嬉しい。

モデルの scale を変える方法としては、depth, width (channel 数), resolution をいじる方法がある。 多くの既存手法では、この 3 つの dimension のうち 1 つだけに注目していたり、層ごとに scaling factor を決めたりしていた。(design space がまだ広すぎる)

この論文では、3 つの dimension すべてを同時に scale させることでもっと効率 & 性能の良いモデルが作れることを実験で示している。 scale の比率は network 全体で共通。 = 個別に scaling factor を決定しなくても良い。

image

一番みぎが提案手法。 depth, width, resolution すべてを scale する。(Fig.2)

EfficientNet Architecture

Compound Model Scaling を既存モデルに適用するだけでも accuracy v.s. efficiency の良いトレードオフが取れる。 が、base model を Compound Model Scaling 用のものにすればもっと良くなるのでは? ということで MnasNet と同じ方法で探索。(特定のデバイスに特化したいわけでないので、latency ではなく flops を target にしている)