Open agatan opened 4 years ago
GPT-3 がでた。異常にモデルサイズが大きい。 大量のデータ、巨大なアーキテクチャで言語モデルを学習することで、fine-tune なしでも様々なタスクで好成績を叩き出している。
transfer する前提で事前学習した巨大なモデル BiT の話。 BN が扱いづらいので GN を使っている(+ Weight Standardization すると BN を超えることもあったと書いてあった)のがちょっと注目ポイント。 tfhub から触れる。
Object Detection を E2E かつシンプルな方法で実現している。 2-stage やら NMS やらで物体検知は複雑なものが多く、推論だけみてもかなり大変。 この論文では Transformer を使うことで後処理などもなしの完全 E2E を目指している。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #50
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!