Open agatan opened 3 years ago
Attention の代替となる Lambda Layer を提案している論文。 O(NxM) の attention map を作らなくてすむ分、計算効率(時間、メモリ)が高いが、EfficientNet 並の精度を達成している。 Context を 「Query を変換する linear function」に変換するというアプローチで、content-based な context と position-based な context を分離することで効率を上げている。
「Transformer の効率の良いバージョン」がいっぱい提案されているが、統一されたベンチマークがないので作って今までのメジャーなモデルを比較したという論文。
モデルアーキテクチャにかかわらず「良い初期値」を決定するアルゴリズム GradInit を提案している。 ...
https://github.com/hiroto0227/paper/issues/2
詳細: https://github.com/zerebom/paper-books/issues/46 src: https://arxiv.org/pdf/1704.03135.pdf pytorch impl: https://gist.github.com/NegatioN/eb2c23fc98e67a6396f6ea77e384c549
不連続なhinge lossを連続に修正したもの。
MultiLabelのRankingタスクで使用されるNN用の損失関数。 rainforestコンペ 5th solutionsで使用されていた。
Label Prediction, Decisionの最適化を同時に行う。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #87
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!