sinchir0 commented 3 years ago

必要なこと

下記の用意お願いします。

pythonスクリプト(.pyファイル)
weightファイル(dataset)
oofファイル(dataset)

最終subのnotebookイメージ

https://www.kaggle.com/underwearfitting/make-final-submission-the-efficient-way?scriptVersionId=46906337

.pyへの変換

方法

kaggle notebookのipynbをvscodeで開いて、右クリック→「Convert to Python Script」で出す
https://qiita.com/abts/items/25bb611b6d83e646abdd jupyter nbconvert --to script *.ipynb

.pyで出力するデータ

.pyを実行すると、各自のsubmissionが吐き出される状態にしておいてください。
rankgauss,PCA,VarThrをするときは「train & public」までのデータを使うようにし、「test 」を含めないようにしてください。（rerun時にtestのデータが変わるため。）参考Notebook : https://www.kaggle.com/sinchir0/nn-use-train-public?scriptVersionId=47382227
submission.csvは、皆で同じ名前にすると上書きされてしまうためsubmission_{yourname}{model}.csvにしてください。（submission.csvじゃなければなんでもOK）例:submission_sinchir0_nn.csv
一応出す予定のモデルは下記でまとめましょう。スタッキングする際は取り敢えず沢山のモデル混ぜれば良い気がします。調和平均とる場合は、どのモデル使うべきか相談させて下さい。

モデル名	URL	weight dataset	validation	CV(crtl_vehicleなし)	LB	trainでのSubの確認	InferenceでのSubの確認
nn	学習・サブ, 最終サブ用 Script	URL	drug_cv	0.01571	0.01833	○	○
tabnet	学習・サブ, 最終サブ用 Script	URL	MLStratified	0.01685	0.01840	○	×
ResNet-Pytorch	学習・サブ, 最終サブ用 Script	URL	MLStratified	0.01610	0.01846	○	×
ThrNN seed-cv	学習・サブ , 最終サブ用 Script	URL	MLStratified	0.01546	0.01836	○	x
ThrNN drug-seed-cv	学習・サブ , 最終サブ用 Script	URL	drug CV	0.01699	0.01841	○	x
TF ResNer Transfer	最終サブ用 Script	URL	MLStratified	0.01615	0.01862	○	○
catboost	最終サブ用 Script	URL	MLStratified	0.01861	未確認	×	x（virtualsubは確認済み）
TF MLP 4Layer Transfer	最終サブ用 Script	URL	MLStratified	0.01620	未確認	×	x（virtualsubは確認済み）

notebookのoutputをdatasetへ上げる方法

Notebook、一番下の左下ボタン「New Dataset」で上げることが可能です。

test+publicをあげているdataset

PCA, RankGauss, VarThrの際はtrain+public testまでみる方針かなと思ってます。public testのデータは下記にあげています。 ../input/moa-test-pub

datasetを共有する方法

datasetのタブ「Settings」のSharingからCollaboratorsを追加してください。

相談

チーム間でのdatasetの共有？みたいなことができるのか。それともpublic datasetにする必要あり？ →共有可能。上記の画像参照。
oofは予め出力しておいて、datasetで読み込む形で問題ないですかね？weight datasetの中に入っているイメージです。 →oofはdatasetに入れるイメージ。

takapy0210 commented 3 years ago

（追いつきました）まとめていただきありがとうございます！

pyスクリプト作ります！！！

tawatawara commented 3 years ago

py スクリプトの上げ方はしんちろさんがやってるみたいに自分のやつ(複数)を一つの dataset に入れとく感じでよさそうですかね。

あと、僕が出力している oof は control の行を含んでいるのですが、これは統一してないとめんどくさいかも...

takapy0210 commented 3 years ago

たしかにoofは統一してないとスタッキングする際に面倒臭そうですね・・・ control の行を含んでいるもので良い気がしていますがいかがでしょう？

sinchir0 commented 3 years ago

僕はoof含んでいません！受け取る際に行数で判断できるのでまあいいかなーとは思ってます。スタッキングする際はcontrol落としたデータで学習すると思う（controlの行は学習の際には何の情報もないと思うため）ので、どちらかというと落としてくれていた方がありがたいです。（めんどくさければ落としてなくても大丈夫です。）

masatakashiwagi commented 3 years ago

僕も現状oofにcontrolの行は含んでいない形でデータ持ってます。（control含まない場合は21948行ですかね）

しんちろさんがスタッキングの部分を担当するのであれば、しんちろさんがやり易い方に合わせるでいいのかなと思いますが、どうですかね？

takapy0210 commented 3 years ago

たしかに学習させないと思う&sig_idがあれば問題ないと思うので、control含まない方がいろいろ楽だし良さそう！

なので、出力しておくoofのshapeは（21948, 207） で統一するって感じですかね💪 （207はsig_id + target_col）

tawatawara commented 3 years ago

最新 version 更新しました。 https://www.kaggle.com/masatakashiwagi/stacking-models-script?scriptVersionId=47831633

変更点：

tawara のモデルを二つ追加 (ThrNN の seed CV と drug seed CV)
sub と oof をリストで扱うよう変更(増えてくるとめんどいので)

list にしたのは好みがあると思うので、ダメだったら戻してください。

weight optimize は一旦ここから fork して作ろうと思います。

team90s / kaggle-MoA

最終sub関連 #137

必要なこと

最終subのnotebookイメージ

.pyへの変換

.pyで出力するデータ

notebookのoutputをdatasetへ上げる方法

test+publicをあげているdataset

datasetを共有する方法

相談