Open stgkrt opened 6 months ago
現在のLBはCVに対してかなり高い。 特に公開コードはLB overfitに見えるのでデータ傾向がpublic/privateで異なる場合に大きくshake down する可能性がある。
[考えたいデータ傾向]
Easyデータに合わせる場合にはPseudo labelingするとかでもよさそう。もちろんCV/LBの確認は必要。
[最終sub候補]
基本的にはCVが一番いいやつを選ぶのが良い
train/testの分布がvote数以外は同じ(vote数3-20=test) vote数×target種類 => easy or hard
public => second stageアリなし比較でpublicで多い分布がわかるはず
[TODO]
こうならなかったら宇宙猫になる
現在のLBはCVに対してかなり高い。 特に公開コードはLB overfitに見えるのでデータ傾向がpublic/privateで異なる場合に大きくshake down する可能性がある。
[考えたいデータ傾向]
Easyデータに合わせる場合にはPseudo labelingするとかでもよさそう。もちろんCV/LBの確認は必要。
[最終sub候補]