Open hakubishin3 opened 2 years ago
https://arxiv.org/abs/2203.05482
https://arxiv.org/pdf/2203.05556.pdf
画像や自然言語といった分野でDNNは発展してきたが、テーブルデータではGBDT系に勝てなかった。
Tabular data problems are currently a final frontier for deep learning research.
この論文では、数値データをうまくembeddingすることによってMLPでもテーブルデータに対して高性能にできることを示した。
数値データをビニングしてembeddingを作る
ビン数を増やすとたしかに性能が良くなる。
様々なテーブルデータに対して比較をした。データセット名の右の上向き矢印は数字が大きいほど高性能であることを示していて下向き矢印は逆であることを示している。
https://arxiv.org/abs/2202.06991
Yi Tay Vinh Q. Tran Mostafa Dehghani Jianmo Ni Dara Bahri, Harsh Mehta Zhen Qin Kai Hui Zhe Zhao Jai Gupta Tal Schuster, William W. Cohen Donald Metzler
(arxiv見る限りはまだ提出されて無さそう)
情報検索ではユーザーのクエリに対して、関連する文書についてランク付けされたリストを応答する。 このとき、転置インデックスや最近傍探索によるアプローチが主流になっている。
クエリに対して直接文書をマッピングする新しい代替アーキテクチャの提案
https://proceedings.neurips.cc/paper/2021/file/162d18156abe38a3b32851b72b1d44f5-Paper.pdf
Neurips2021の論文
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. https://github.com/wantedly/machine-learning-round-table/issues/133
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!