tm4roon / survey

Survey on machine learning.
14 stars 1 forks source link

CatBoost: unbiased boosting with categorical features #87

Open tm4roon opened 4 years ago

tm4roon commented 4 years ago

CatBoost: unbiased boosting with categorical features

GBDTに潜む2つのTarget leakage (予測時に利用できない情報を学習に利用してしまうこと)の可能性についての対策を提案。

図はAnna Veronika Dorogush - CatBoost - the new generation of Gradient Boostingから引用。

Target leakageの可能性

対策方法

対策方法の基本的なアイデアはどちらも共通で、データに順番を与えて過去のデータのみを参照すること。

  1. まず、乱数を発生させて各データに順番を与える。すなわち、データに時系列性を付与する。
  2. Ordered Target Statistics: ある時点のデータをTarget Encodingする際にはそれよりも過去のデータのみを参照する。 Orderd Boosting:ある時点までのデータを学習に利用する際にはそれよりも過去のデータのみを参照する。


その他

その他、CatBoostには以下のような特徴がある。


文献情報

解説記事