nogawanogawa / paper_memo

4 stars 0 forks source link

Why do tree-based models still outperform deep learning on tabular data? #58

Closed nogawanogawa closed 1 year ago

nogawanogawa commented 1 year ago

論文URL

https://arxiv.org/abs/2207.08815

著者

Léo Grinsztajn (SODA), Edouard Oyallon (ISIR, CNRS), Gaël Varoquaux (SODA)

会議

Preprint. Under review(NeurIPS2022)

背景

深層学習はテキストや画像の分野で多大な進歩を果たしてきた。 しかし、表敬式のデータに対する優位性は未だ明らかになっていない。

特に先行研究では、標準的なデータセットもなく、ハイパーパラメータのチューニング等による不平等な評価がなされていた。

目的

アプローチ

nogawanogawa commented 1 year ago

背景

深層学習はテキストや画像の分野で多大な進歩を果たしてきた。 しかし、表敬式のデータに対する優位性は未だ明らかになっていない。

特に先行研究では、標準的なデータセットもなく、ハイパーパラメータのチューニング等による不平等な評価がなされていた。

nogawanogawa commented 1 year ago

目的

アプローチ

nogawanogawa commented 1 year ago

標準データセットの作成

データセット選定の基準

テーブルデータの学習課題を均質化するための条件

ハイパーパラメータとかはランダムサーチの回数を統一して平等な感じでやるらしい(あんまり良くわかってない)

複数のデータセットの集約

テストセットの集約に関しては、精度が下位10%(回帰の場合は50%)を切り捨てて、正規化する。(精度が悪いモデルを異常値とみなし、正規化した後0として扱う) これを各データセットについて、モデルごとに平均(?)を取ることで評価する。

nogawanogawa commented 1 year ago

比較

数値データだけだと下記のようになる。(横軸がハイパラの探索回数、縦軸がscore)

image

カテゴリ変数が含まれるとさらにNNとTreeで差がつく。依然としてtree basedのほうが性能が高い

image

nogawanogawa commented 1 year ago

考察

NNはなめらかな解に偏る

smoothingを行って学習したところ、treeは性能が低下し、NNは変化しなかった。 -> NNは目的関数がなめらかな関数だと想定して学習していると考えられる。一方、実際の目的関数はなめらかでないケースを苦手としていることがわかる。

情報のない特徴はMLPのようなNNに強く影響を与える

情報量の無い特徴が多分に含まれている。これがMLP等では強く影響されてしまっている。

image

image

回転への耐性

※おそらく列と列の関係性を見てるか、列自体の値を見ているか、という話

image

rotationするとTreeとNNの優位性が逆転する。 (多分次元圧縮みたいな形で特徴をいじると、Treeは精度が下がったりするが、NNはそこまで下がってないとかそういうのがいいたいんだと思ってる)