Why do tree-based models still outperform deep learning on tabular data?

nogawanogawa commented 1 year ago

論文URL

https://arxiv.org/abs/2207.08815

著者

Léo Grinsztajn (SODA), Edouard Oyallon (ISIR, CNRS), Gaël Varoquaux (SODA)

会議

Preprint. Under review(NeurIPS2022)

背景

深層学習はテキストや画像の分野で多大な進歩を果たしてきた。しかし、表敬式のデータに対する優位性は未だ明らかになっていない。

特に先行研究では、標準的なデータセットもなく、ハイパーパラメータのチューニング等による不平等な評価がなされていた。

目的

表形式データにおけるtree basedの手法の有用性を示す

アプローチ

表形式データにおける新しいベンチマークの作成
- 一般的なデータセットにおいて、ハイパラのチューニングを含めて、深層学習とtree basedモデルを複数の設定で比較
- tree basedモデルが深層学習ベースの手法より優れる点を経験的に調査し、性能差を明らかにする

nogawanogawa commented 1 year ago

背景

深層学習はテキストや画像の分野で多大な進歩を果たしてきた。しかし、表敬式のデータに対する優位性は未だ明らかになっていない。

特に先行研究では、標準的なデータセットもなく、ハイパーパラメータのチューニング等による不平等な評価がなされていた。

nogawanogawa commented 1 year ago

目的

表形式データにおけるtree basedの手法の有用性を示す

アプローチ

表形式データにおける新しいベンチマークの作成
- 一般的なデータセットにおいて、ハイパラのチューニングを含めて、深層学習とtree basedモデルを複数の設定で比較
- tree basedモデルが深層学習ベースの手法より優れる点を経験的に調査し、性能差を明らかにする

nogawanogawa commented 1 year ago

標準データセットの作成

データセット選定の基準

異種のカラムを持つ
高次元でない（カラム数のこと？）
情報が少なすぎない
stream, time seriesでない
実世界のデータである
小さすぎない
かんたんすぎない
決定論的でない

テーブルデータの学習課題を均質化するための条件

大きすぎるデータセットは10000サンプルに切り詰める
欠損データはなくす
クラス内サンプル数をバランスさせる
カーディナリティは小さく

ハイパーパラメータとかはランダムサーチの回数を統一して平等な感じでやるらしい（あんまり良くわかってない）

複数のデータセットの集約

テストセットの集約に関しては、精度が下位10％（回帰の場合は50％）を切り捨てて、正規化する。（精度が悪いモデルを異常値とみなし、正規化した後0として扱う）これを各データセットについて、モデルごとに平均（？）を取ることで評価する。

nogawanogawa commented 1 year ago

比較

数値データだけだと下記のようになる。（横軸がハイパラの探索回数、縦軸がscore）

カテゴリ変数が含まれるとさらにNNとTreeで差がつく。依然としてtree basedのほうが性能が高い

nogawanogawa commented 1 year ago

考察

NNはなめらかな解に偏る

smoothingを行って学習したところ、treeは性能が低下し、NNは変化しなかった。 -> NNは目的関数がなめらかな関数だと想定して学習していると考えられる。一方、実際の目的関数はなめらかでないケースを苦手としていることがわかる。

情報のない特徴はMLPのようなNNに強く影響を与える

情報量の無い特徴が多分に含まれている。これがMLP等では強く影響されてしまっている。

回転への耐性

※おそらく列と列の関係性を見てるか、列自体の値を見ているか、という話

rotationするとTreeとNNの優位性が逆転する。（多分次元圧縮みたいな形で特徴をいじると、Treeは精度が下がったりするが、NNはそこまで下がってないとかそういうのがいいたいんだと思ってる）

nogawanogawa / paper_memo