IMOKURI / ubiquant-market-prediction

Kaggle Ubiquant Market Prediction

MIT License

2 stars 3 forks source link

Open IMOKURI opened 2 years ago

IMOKURI commented 2 years ago

Overview

TimeSeriesSplit と GroupKFold のハイブリッド

これらのモデルをアンサンブルする際は、weight をかけるのが良さそう。例えば、 [0.0625, 0.0625, 0.125, 0.25, 0.5] for 5 fold

IMOKURI commented 2 years ago

↑ だと、わかい fold のデータ量が少なくて、精度が低いので、データは以下のようにもっとたくさん使うようにしてみる。

IMOKURI commented 2 years ago

↑　この fold で学習して、最終的にはすべてのデータで学習した 1つのモデルをサブミットに含めるのはありかもしれない

IMOKURI commented 2 years ago

CPCV(Combinatorial Purged Cross-Validation)

validation に 2block 使うことで、 oof の結果を複数得ることができる、その結果でCVを評価することで、より、ロバストなモデルが作れる。

一方で、すべての investment_id を使っているので、未知の investment_id に対して弱い可能性がありそう。要検討

validation データの直前、直後の学習データを使わないようにするのが、よさそう。

IMOKURI commented 2 years ago

↑ の　fold 分割に対して、 investment_id の group kfold を追加したもの

IMOKURI commented 2 years ago

↑　この fold で学習して、最終的にはすべてのデータで学習した 1つのモデルをサブミットに含めるのはありかもしれない

kaggle.com/c/ubiquant-market-prediction/discussion/303916#1668816

validation のデータバリエーションが少なくて、だめ。