stgkrt / kaggle-hms

1 stars 0 forks source link

最終subの選び方の検討材料 #19

Open stgkrt opened 6 months ago

stgkrt commented 6 months ago

現在のLBはCVに対してかなり高い。 特に公開コードはLB overfitに見えるのでデータ傾向がpublic/privateで異なる場合に大きくshake down する可能性がある。

[考えたいデータ傾向]

Easyデータに合わせる場合にはPseudo labelingするとかでもよさそう。もちろんCV/LBの確認は必要。

[最終sub候補]

stgkrt commented 6 months ago

基本的にはCVが一番いいやつを選ぶのが良い

stgkrt commented 6 months ago

train/testの分布がvote数以外は同じ(vote数3-20=test) vote数×target種類 => easy or hard

public => second stageアリなし比較でpublicで多い分布がわかるはず

[TODO]

こうならなかったら宇宙猫になる