Open agatan opened 3 years ago
画像 x Transformer x Pre-Training の研究。 ちょっとにわかには信じがたいけど、人工的に Corrupt させた画像でできるいくつかのタスク(e.g. 超解像 , denoise)を、multi-head, multi-tail な NN で同時に学習させると、その後いろんなタスクに fine-tune したときの性能が良い(?)
Kaiming He さんの新作。 画像の unsupervised representation learning で最近は Siamese Network が主流になっている。 (一枚の画像を 2 種類に augment してそれぞれ NN に通し、似た特徴量になるよう学習させる) 単純で無意味な解(= 全ての画像を同じベクトルで表してしまう)に陥らないよう、SimCLR, MoCo, BYOL などなど、それぞれいろんな工夫をしているが、もっとシンプルにやってもいけるのでは?という検証をしている。
計算回数の少ない image classifier の発展シリーズ。 depth を浅くする代わりにそれぞれの層でより複雑な non-linearity を表現できる活性化関数を使用する、Conv の計算回数を減らすために Factorize する、などによって少ない計算回数で高い性能を示している。 計算回数の議論しかしていないので、ハードウェアの性質とかは無視している。
NMT で decode 時に beam search をすると bleu スコアが高くなることが一般に知られている。 これは、decoder の出力が局所的に最適な解であっても大域的には最適でない場合があるためで、全探索(トークン種類 ^ 系列長 の計算量)は現実的でないため beam search が採用されている。 この理由だけだと beam search の幅は広ければ広いほど良いように見えるが、なぜか現実の実験ではそうはなっておらず、width = 5 くらいが bleu スコア的には最も良いという実験結果が多くの論文でも報告されている。 それはなぜか?もしなんらかの別の objective があるのだとすれば、それを陽に考慮した objective で decode できないか?というのを調べた論文。
RTX 2080 一枚 x a few hours で 1024x1024 の画像を生成する GAN が収束するらしい (!) 安定して速い GAN のために必要なのは、1) 高速に収束する G, 2) G の学習に意味のあるシグナルを継続して提供し続けられる D が必要。
adversarial loss は単純な hinge loss でやっている(いろいろあるけど little performance difference だし、これが一番軽いから、らしい)
臓器のセグメンテーションタスクに関するNatureの論文 基本的にオープンデータのCT画像は造影剤が投与されていて、コントラストが強いのでsegmentationが容易 しかし、なんらかの事情で造影剤を投与できない患者に対しても識別精度を高いモデルがほしい
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev.
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!