team90s / kaggle-MoA

https://www.kaggle.com/c/lish-moa
2 stars 1 forks source link

最終sub関連 #137

Open sinchir0 opened 3 years ago

sinchir0 commented 3 years ago

必要なこと

下記の用意お願いします。

最終subのnotebookイメージ

.pyへの変換

方法

.pyで出力するデータ

モデル名 URL weight dataset validation CV(crtl_vehicleなし) LB trainでのSubの確認 InferenceでのSubの確認
nn 学習・サブ, 最終サブ用 Script URL drug_cv 0.01571 0.01833
tabnet 学習・サブ, 最終サブ用 Script URL MLStratified 0.01685 0.01840 ×
ResNet-Pytorch 学習・サブ, 最終サブ用 Script URL MLStratified 0.01610 0.01846 ×
ThrNN seed-cv 学習・サブ , 最終サブ用 Script URL MLStratified 0.01546 0.01836 x
ThrNN drug-seed-cv 学習・サブ , 最終サブ用 Script URL drug CV 0.01699 0.01841 x
TF ResNer Transfer 最終サブ用 Script URL MLStratified 0.01615 0.01862
catboost 最終サブ用 Script URL MLStratified 0.01861 未確認 × x(virtualsubは確認済み)
TF MLP 4Layer Transfer 最終サブ用 Script URL MLStratified 0.01620 未確認 × x(virtualsubは確認済み)

notebookのoutputをdatasetへ上げる方法

Notebook、一番下の左下ボタン「New Dataset」で上げることが可能です。 image

test+publicをあげているdataset

PCA, RankGauss, VarThrの際はtrain+public testまでみる方針かなと思ってます。public testのデータは下記にあげています。 ../input/moa-test-pub

datasetを共有する方法

datasetのタブ「Settings」のSharingからCollaboratorsを追加してください。 image

相談

takapy0210 commented 3 years ago

(追いつきました) まとめていただきありがとうございます!

pyスクリプト作ります!!!

tawatawara commented 3 years ago

py スクリプトの上げ方はしんちろさんがやってるみたいに自分のやつ(複数)を一つの dataset に入れとく感じでよさそうですかね。

あと、僕が出力している oof は control の行を含んでいるのですが、これは統一してないとめんどくさいかも...

takapy0210 commented 3 years ago

たしかにoofは統一してないとスタッキングする際に面倒臭そうですね・・・ control の行を含んでいるもので良い気がしていますがいかがでしょう?

sinchir0 commented 3 years ago

僕はoof含んでいません!受け取る際に行数で判断できるのでまあいいかなーとは思ってます。 スタッキングする際はcontrol落としたデータで学習すると思う(controlの行は学習の際には何の情報もないと思うため)ので、どちらかというと落としてくれていた方がありがたいです。(めんどくさければ落としてなくても大丈夫です。)

masatakashiwagi commented 3 years ago

僕も現状oofにcontrolの行は含んでいない形でデータ持ってます。(control含まない場合は21948行ですかね)

しんちろさんがスタッキングの部分を担当するのであれば、しんちろさんがやり易い方に合わせるでいいのかなと思いますが、どうですかね?

takapy0210 commented 3 years ago

たしかに学習させないと思う&sig_idがあれば問題ないと思うので、control含まない方がいろいろ楽だし良さそう!

なので、出力しておくoofのshapeは(21948, 207) で統一するって感じですかね💪 (207はsig_id + target_col)

tawatawara commented 3 years ago

最新 version 更新しました。 https://www.kaggle.com/masatakashiwagi/stacking-models-script?scriptVersionId=47831633

変更点:

list にしたのは好みがあると思うので、ダメだったら戻してください。

weight optimize は一旦ここから fork して作ろうと思います。