hakubishin3 commented 2 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/133

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

hakubishin3 commented 2 years ago

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

https://arxiv.org/abs/2203.05482

複数のfine-tuneした学習済みモデルの重みの平均を取ることで精度向上する
出力の平均ではなく重みの平均なので推論で扱うモデルは1つで済む。計算コストや計算量が減るので良い。
Greedyに予測精度の高いモデルの重みを平均化対象に加えていくやり方が良いらしい
単に予測精度の高さを求めるなら出力の平均を取るほうがコスパ的に良さそう、推論コストを上げずに精度向上できるという点ではモデルスープは非常に魅力的

Hayashi-Yudai commented 2 years ago

On Embeddings for Numerical Features in Tabular Deep Learning

https://arxiv.org/pdf/2203.05556.pdf

画像や自然言語といった分野でDNNは発展してきたが、テーブルデータではGBDT系に勝てなかった。

Tabular data problems are currently a final frontier for deep learning research.

この論文では、数値データをうまくembeddingすることによってMLPでもテーブルデータに対して高性能にできることを示した。

Piecewise linear encoding

数値データをビニングしてembeddingを作る

ビン数を増やすとたしかに性能が良くなる。

Result

様々なテーブルデータに対して比較をした。データセット名の右の上向き矢印は数字が大きいほど高性能であることを示していて下向き矢印は逆であることを示している。

nogawanogawa commented 2 years ago

Transformer Memory as a Differentiable Search Index

論文URL

https://arxiv.org/abs/2202.06991

著者

Yi Tay Vinh Q. Tran Mostafa Dehghani Jianmo Ni Dara Bahri, Harsh Mehta Zhen Qin Kai Hui Zhe Zhao Jai Gupta Tal Schuster, William W. Cohen Donald Metzler

会議

(arxiv見る限りはまだ提出されて無さそう)

背景

情報検索ではユーザーのクエリに対して、関連する文書についてランク付けされたリストを応答する。このとき、転置インデックスや最近傍探索によるアプローチが主流になっている。

目的

クエリに対して直接文書をマッピングする新しい代替アーキテクチャの提案

アプローチ

DSI (Differentiable Search Index)
- 文字列で構成される問い合わせを直接Doc id に対応付ける

参考

https://github.com/nogawanogawa/paper_memo/issues/33

zerebom commented 2 years ago

On component interactions in two-stage recommender systems

https://proceedings.neurips.cc/paper/2021/file/162d18156abe38a3b32851b72b1d44f5-Paper.pdf

Neurips2021の論文

2-stageの推薦モデルの相互作用を検証した論文
実データ・合成データを使って、RankerとCG(Candidate Generation)の相互作用が全体の性能に大きく影響を与えることを実証している

Result

arms: CGの母集団のデータ数
nominators: CGの数
regret: 損失の大きさ
d/s: 真の特徴量の次元d/ 1段目のシステムが取得できる集合の大きさ

Synthetic data results

Amazon data results.

Amazon dataの下のグラフのを見ると、nominator数が変わるとRankerとCGの損失の比率が大きく変わる

wantedly / machine-learning-round-table

[2022/03/17]Machine Learning 輪講 #135

Why

What

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

On Embeddings for Numerical Features in Tabular Deep Learning

Piecewise linear encoding

Result

Transformer Memory as a Differentiable Search Index

論文URL

著者

会議

背景

目的

アプローチ

参考

On component interactions in two-stage recommender systems

Result

Synthetic data results

Amazon data results.