[2020/12/03] Machine Learning 輪講

agatan commented 3 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev.

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

agatan commented 3 years ago

Pre-Trained Image Processing Transformer

https://arxiv.org/abs/2012.00364v1

画像 x Transformer x Pre-Training の研究。ちょっとにわかには信じがたいけど、人工的に Corrupt させた画像でできるいくつかのタスク（e.g. 超解像 , denoise）を、multi-head, multi-tail な NN で同時に学習させると、その後いろんなタスクに fine-tune したときの性能が良い（？）

Exploring Simple Siamese Representation Learning

https://arxiv.org/abs/2011.10566v1

Kaiming He さんの新作。画像の unsupervised representation learning で最近は Siamese Network が主流になっている。（一枚の画像を 2 種類に augment してそれぞれ NN に通し、似た特徴量になるよう学習させる）単純で無意味な解（= 全ての画像を同じベクトルで表してしまう）に陥らないよう、SimCLR, MoCo, BYOL などなど、それぞれいろんな工夫をしているが、もっとシンプルにやってもいけるのでは？という検証をしている。

MicroNet: Towards Image Recognition with Extremely Low FLOPs

https://arxiv.org/abs/2011.12289v1

計算回数の少ない image classifier の発展シリーズ。 depth を浅くする代わりにそれぞれの層でより複雑な non-linearity を表現できる活性化関数を使用する、Conv の計算回数を減らすために Factorize する、などによって少ない計算回数で高い性能を示している。計算回数の議論しかしていないので、ハードウェアの性質とかは無視している。

If beam search is the answer, what was the question?

https://www.aclweb.org/anthology/2020.emnlp-main.170/

NMT で decode 時に beam search をすると bleu スコアが高くなることが一般に知られている。これは、decoder の出力が局所的に最適な解であっても大域的には最適でない場合があるためで、全探索（トークン種類 ^ 系列長の計算量）は現実的でないため beam search が採用されている。この理由だけだと beam search の幅は広ければ広いほど良いように見えるが、なぜか現実の実験ではそうはなっておらず、width = 5 くらいが bleu スコア的には最も良いという実験結果が多くの論文でも報告されている。それはなぜか？もしなんらかの別の objective があるのだとすれば、それを陽に考慮した objective で decode できないか？というのを調べた論文。

Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

https://openreview.net/forum?id=1Fqg133qRaI

RTX 2080 一枚 x a few hours で 1024x1024 の画像を生成する GAN が収束するらしい (!) 安定して速い GAN のために必要なのは、1) 高速に収束する G, 2) G の学習に意味のあるシグナルを継続して提供し続けられる D が必要。

Residual Connection + SE みたいな Skip-layer Excitation を使うことで、gradient flow をいい感じにし、Generator の収束を早める
D は普通の real/fake に加えて、real 画像についてのみ同時に auto-encoder 的な reconstruction をやらせる。これがいい感じの正則化になる (?)

adversarial loss は単純な hinge loss でやっている（いろいろあるけど little performance difference だし、これが一番軽いから、らしい）

zerebom commented 3 years ago

Data augmentation using generative adversarial networks(Cycle GAN) to improve generalizability in CT segmentation tasks

論文: https://www.nature.com/articles/s41598-019-52737-x
自分用まとめ: https://github.com/zerebom/paper-books/issues/42

臓器のセグメンテーションタスクに関するNatureの論文基本的にオープンデータのCT画像は造影剤が投与されていて、コントラストが強いのでsegmentationが容易しかし、なんらかの事情で造影剤を投与できない患者に対しても識別精度を高いモデルがほしい

強コントラスト画像で学習->低コントラスト画像を推論
(強コントラスト画像+CycleGANで強->低コントラストに変換した生成画像)で学習->低コントラスト画像を推論を比較したところ、後者のほうが明らかに精度が上がった

wantedly / machine-learning-round-table