ArcFace: Additive Angular Margin Loss for Deep Face Recognition

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1801.07698
公開日時：2018/01/23
組織 :
被引用数（記事作成時点）：1045 件
実装コード（<公式>）：https://github.com/deepinsight/insightface
実装コード（<非公式>PyTorch）：https://github.com/ronghuaiyang/arcface-pytorch
Publication :

1. どんなもの？

クラス間分散が大きくクラス内分散を小さくなるように softmax loss を改良した損失関数を提案。DNN を用いた顔認識タスクにおいて、SOTA を実現

2. 先行研究と比べてどこがすごいの？

従来の DNN を用いた顔認識モデルの損失関数としては、softmax loss が広く採用されていた。しかしながら、softmax loss で学習されたネットワークでは、各特徴量のクラス間分散が小さくなるように分布され、分類境界付近では曖昧な分類結果となる。このことは、顔認識モデルなどの所属クラスを識別するタスクでは問題となる。本手法では、クラス間分散が大きくクラス内分散を小さくなるように softmax loss を改良することで、DNN を用いた顔認識タスクにおいて、SOTA を実現している。

3. 技術や手法の"キモ"はどこにある？

従来の softmax loss の問題点従来の顔認識モデルの損失関数には、以下の式で定義される softmax loss が広く採用されてきた。
この softmax loss を、簡単のためとして変形すると、以下の式のようになる。この softmax loss の変形式より、softmax loss で学習されたネットワークにおける中間特徴量は、左下図のような超球面を構成することがわかる。この図より、softmax loss では各特徴量を大まかに分類するが、分類境界が曖昧になっていることがわかる。言い換えると、クラス間分散が小さくなっており、このことは顔認識モデルなどで各クラスを識別 or 判別する際には問題となる。そのため arcface では上図 (b) のように、クラス間分散が大きくクラス内分散を小さくなるように softmax loss の改良を行う。
arcface の損失関数前述のように、従来の softmax loss では、クラス間分散が小さくなるために、顔認識モデルなどで各クラスを識別する際には不適切であるという問題が存在する。 arcface では、クラス間分散が大きくクラス内分散を小さくなるように softmax loss の改良を行う。
上図は、arcface の損失関数での処理を示した図である。具体的には、以下のような処理を行っている 1. ネットワーク内の特徴量 x_i に対して、L2正規化を行う。 2. ネットワークの重みベクトル W_j∈W に対して、L2正規化を行う。 3. 正解クラス y_i の logit cos⁡(y_i ) のみに対して、マージン m を加えて、cos⁡(y_i )→cos⁡(y_i+m) とする。これにより、正解クラスに関してはの角度 θ がマージン m よりも大きくなるように特徴量 x が分布されるので、クラス間分散が大きくなるように特徴量が分布（＝学習）される。これらの処理により定義される arcface の損失関数は、以下の式のようになる。
ネットワーク構成 arcface の損失関数は、一般的な DNN 全般で有効な損失関数になっているが、本論文では、ResNet-50, ResNet-101 のネットワーク構造を採用している。但し最終 conv 層の後に、BatchNorm + Dropout + FC + BathNorm 層を追加し、512 次元の特徴ベクトルを出力するようにしている。（x_i∈Rd (d=512)）また、入力データの前処理として、５つの顔特徴で正規化した 112x112 の顔クロップ画像を生成する処理を行っている。