[2019/06/05] Machine Learning 輪講

agatan commented 5 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #3

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

agatan commented 5 years ago

(https://github.com/agatan/paper-reading-notes/issues/27)

EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

CNN Model の width, depth, resolution すべてをバランス良く調整することでリソース効率の良いアーキテクチャをつくる話。 ResNet-50 と、同等の FLOPS である EfficientNet-B4 を ImageNet top-1 accuracy で比較すると、76.3% v.s. 82.6% と優位な性能向上が確認できた。 ImageNet 以外のデータに transfer したときも 5/8 のデータセットで SotA & 他の Network より最大 1/ 21 のパラメータ数。

Compound Model Scaling

リソール効率の制約付きでモデルを設計するのは難しい & コストが高い。（design space が広すぎる）単純に「ベースとなるモデルを scale させる」だけでリソース効率を見たつつ良い感じのモデルができたら嬉しい。

モデルの scale を変える方法としては、depth, width (channel 数), resolution をいじる方法がある。多くの既存手法では、この 3 つの dimension のうち 1 つだけに注目していたり、層ごとに scaling factor を決めたりしていた。(design space がまだ広すぎる)

この論文では、3 つの dimension すべてを同時に scale させることでもっと効率 & 性能の良いモデルが作れることを実験で示している。 scale の比率は network 全体で共通。 = 個別に scaling factor を決定しなくても良い。

一番みぎが提案手法。 depth, width, resolution すべてを scale する。（Fig.2）

EfficientNet Architecture

Compound Model Scaling を既存モデルに適用するだけでも accuracy v.s. efficiency の良いトレードオフが取れる。が、base model を Compound Model Scaling 用のものにすればもっと良くなるのでは？ということで MnasNet と同じ方法で探索。（特定のデバイスに特化したいわけでないので、latency ではなく flops を target にしている）

iiou16 commented 5 years ago

AutoAugment(https://arxiv.org/pdf/1805.09501.pdf )系でなにか１本。最初

Fast AutoAugment : https://arxiv.org/pdf/1905.00397.pdf

で話そうと思ったら似たような系統のが続けて出てたので…

Online Hyper-parameter Learning for Auto-Augmentation Strategy : https://arxiv.org/pdf/1905.07373.pdf
Population Based Augmentation : https://arxiv.org/pdf/1905.05393.pdf

tan-z-tan commented 5 years ago

Deep Face Recognition: A Survey

https://arxiv.org/pdf/1804.06655.pdf

かなり過去からの顔認識・識別の技術を追ったsurvey論文。 Face Recognitionという分野そのものを分類して説明しているので長い。必要なところだけ読んだら良さそう。

手法の比較やデータセットの比較のテーブルを見るだけでネットワーク、ロス関数、データの観点で網羅的に書かれているのが面白い。

この手の問題として、やりたいことは分類識別だけどクラス分類として解くのは難し（かった）という悩ましさがある。クラス分類は softmax をつかうが、softmax はクラス数に応じてコストがかかるし、決まったラベルにしか使えない。

ロス関数

Contrastive Loss, Triplet Loss
- Metric Learning
- ペアに対して、同じで画像ペアであれば(距離d-e)に対してペナルティ、違う画像ペアであれば(e-距離d)に対してペナルティ
- 距離はユークリッド距離
Arcfaceとか
- クラス分類として解くことができる。Cosfaceとかも一緒
- 最近の傾向はミス分類を防ぐためにいかにマージンを工夫するかという戦いになっている。

比較表

意外とFacenetとかは古いけど精度がいい。いま使うとしたらArcFace? 1804_06655_pdf

agatan commented 5 years ago

https://machine-learning-pitch.connpass.com/event/128022/

wantedly / machine-learning-round-table