team90s / kaggle-MoA

https://www.kaggle.com/c/lish-moa
2 stars 1 forks source link

Submissionの共有 #6

Open takapy0210 opened 4 years ago

takapy0210 commented 4 years ago

submissionを共有するISSUEです. コメントにsubの詳しい内容を、↓のテーブル(sub履歴)にそのリンクをまとめていきましょう💪 (コメントはテンプレをうまく使ってください〜!)

sub履歴

スプレッドシートに移行しました!末尾に追記していってください!(リンク知ってる人は全員見れるので、拡散注意でお願いします🙏)https://docs.google.com/spreadsheets/d/1ulNrt4Mo__D5ihxYcp0dwDKm1qa8sfbYJxus1kjyquo/edit


Date Link Local Score LB Score memo
M/D この行をコピーして使ってね hoge hoge hoge
9/9 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-695860538 0.01461 0.02417 GBDT
9/10 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-690113004 0.01592 0.02008
9/11 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-690871592 0.01480 0.01909
9/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-692385207 0.01463 0.01875
9/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-695799072 0.01480 0.01911 ctl_vehicleのデータの平均を引いてみる
9/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-695860538 0.01461 0.01871
10/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-703048900 0.01611 0.01984
10/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-705273929 0.01595 0.01889 Group k-fold
10/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-705480242 0.01459 0.01871
10/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-705481676 0.01499 0.01883
10/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706213034 0.01533 0.01930 活性化関数をReLu→ELUに変更
10/D https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706531858 0.01490 0.01876 Transfer Learning
10/10 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706621572 0.01485 0.01873 PCA Variance Threshold
10/12 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708359683 0.01521 0.01924 モデルのinputと中間層の調整
10/13 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-707418373 0.01455 0.01867 add stats features
10/14 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708340703 0.01455 0.01867 add stats features + cluster
10/14 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708697621 0.01503 0.01866 loss関数の中にlabel smoothingを加える
10/15 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-709168736 0.01519 0.01878 loss内でのlabel smoothingに加え、postprocessとしてlabel smoothingを実施
10/15 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-709306080 0.01502 0.01863 loss内ではlabel smoothingを行い、cvは普通のlogloss(pytorchのBCEWithLogitsLoss)で計算。
10/16 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-710709431 0.01553 0.01864 Tabnetのベースライン
10/16 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-710711925 0.01675 0.01867 Tabnet,trainからctrl_vehicleのデータを削除
10/16 https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-710734024 0.01692 0.01857 Tabnet, label smoothing
10/16 https://github.com/team90s/kaggle-MoA/issues/30#issue-724001900 0.01737 0.01876 Tabnet, n_step1→3に変更
10/16 https://github.com/team90s/kaggle-MoA/issues/31#issue-724003104 0.01749 0.01890 Tabnet, mask_typeをentmaxからsparsemaxに変更
10/17 https://github.com/team90s/kaggle-MoA/issues/29#issue-723963036 0.01508 0.01871 postpricessとして、predの値を0.005,0.995でclip
10/18 https://github.com/team90s/kaggle-MoA/issues/32#issue-724157740 0.01692 0.01857 Tabnet, gammaを1.3→2.0に変更
10/24 https://github.com/team90s/kaggle-MoA/issues/33#issue-728732533 0.01688 0.01859 Tabnet, transfer
10/24 https://github.com/team90s/kaggle-MoA/issues/34#issue-728736893 0.01499 0.01857 nn, rankgauss
10/25 https://github.com/team90s/kaggle-MoA/issues/39#issue-729515730 NA 0.01846 Ensemble, 単純平均, nn(0.01857), tabnet(0.01857)
10/25 https://github.com/team90s/kaggle-MoA/issues/40#issue-729526936 0.01692 0.01847 Tabnet, rankgauss
10/26 https://github.com/team90s/kaggle-MoA/issues/42 0.01594954 0.01878 TF swish adjust
10/26 https://github.com/team90s/kaggle-MoA/issues/44#issue-729959012 0.01660 0.01854 Resnet baseline
10/26 https://github.com/team90s/kaggle-MoA/issues/43#issue-729603582 0.016914 0.01854 Tabnet,n_a 24→32, n_d 24→32
10/26-30 https://github.com/team90s/kaggle-MoA/issues/49#issue-733674260 0.0149934 0.01863 NN leakyreluを使用
10/26-30 https://github.com/team90s/kaggle-MoA/issues/50#issue-733678327 0.01501 0.01861 NN, hidden sizeを小さくする
10/26-30 https://github.com/team90s/kaggle-MoA/issues/51#issue-733679242 0.016776 0.01859 Resnet, ranlgauss
10/26-30 https://github.com/team90s/kaggle-MoA/issues/52#issue-733681683 0.016907 0.01846 Tabnet, SeedAve
10/26-30 https://github.com/team90s/kaggle-MoA/issues/53#issue-733686006 0.017665 0.01898 Tabnet, n_steps & gamma
10/31 https://github.com/team90s/kaggle-MoA/issues/55 - 0.01839 Ensemble, 単純平均, nn(0.01857),tabnet(0.01846),nn_highscorekernel(0.01846)
10/31 https://github.com/team90s/kaggle-MoA/issues/56#issue-733828085 0.01691 0.01847 tabnetに統計的特徴量(sum,mean,std,kurtskew)を追加
11/1 https://github.com/team90s/kaggle-MoA/issues/59 0.01603463925770187 0.01873 TFのMLPで、活性化関数をReluで実験
11/1 https://github.com/team90s/kaggle-MoA/issues/59 0.01602792549896504 0.01873 TFのMLPで、活性化関数をleaky_ReLUで実験
11/1 https://github.com/team90s/kaggle-MoA/issues/59 0.015929521084947655 0.01867 TFのMLPで、活性化関数をswishで実験
11/1 https://github.com/team90s/kaggle-MoA/issues/59 0.016425334909911382 0.01859 TFのResnetを実験
11/1 https://github.com/team90s/kaggle-MoA/issues/67 0.01631410100184313 0.01854 TFのResnetのlabel smoothingの範囲を0.001〜0.999から0.0005〜0.9995に変更して実験
11/5 https://github.com/team90s/kaggle-MoA/issues/73#issue-736476585 0.01515 0.01876 NN high score kernelに対し、第一層dropoutの復活、transfer+AdamW
11/5 https://github.com/team90s/kaggle-MoA/issues/74#issue-736479696 0.01458 0.01840 NN high score kernelそのまま
11/6 https://github.com/team90s/kaggle-MoA/issues/77#issue-738154232 0.01464 0.01841 NN high score kernel drug cv
11/7 https://github.com/team90s/kaggle-MoA/issues/78#issue-738155274 0.01844 Blend, tawarasan(CV:0.01586, LB:0.01844), tabnet(CV:0.01690,LB:0.01846), NN(CV:0.01464,LB:0.01846)
takapy0210 commented 4 years ago

File

Training: https://www.kaggle.com/takanobu0210/basemodel-lightgbm (ver.3) submittion: https://www.kaggle.com/takanobu0210/baselinemodel-submit

手法・コメント

Local Score

0.016317790747151707

LB Score

0.02417

その他(何かあれば)

N/A

takapy0210 commented 4 years ago

File

Training: https://www.kaggle.com/takanobu0210/basemodel-lightgbm?scriptVersionId=42348176

手法・コメント

Local Score

0.015926739456905037

LB Score

0.02008

その他(何かあれば)

sinchir0 commented 4 years ago

File

https://www.kaggle.com/sinchir0/moa-pytorch-nn-starter

手法・コメント

NakamaさんNotebookをそのままSubmitしてます。ベースラインとして。

・特徴量 : オリジナルから変更なし ・CV : MultilabelStratifiedKFold 5 folds ・Loss : BCEWithLogitsLoss ・Optimizer : Adam ・Scheduler : OneCycleLR ・SeedAveraging : 3 seed

Local Score

0.014805003594543058

LB Score

0.01909

Param

その他(何かあれば)

・時間 : Commit 約32分 Submit ?分

takapy0210 commented 4 years ago

File

このnotebookをアレンジしてsub ver.2: https://www.kaggle.com/takanobu0210/new-baseline-pytorch-moa?scriptVersionId=42667922 ver.3: https://www.kaggle.com/takanobu0210/new-baseline-pytorch-moa?scriptVersionId=42681153

手法・コメント

Local Score

ver.2: 0.014638007006513873 ver.3: 0.01464625646558292

LB Score

ver.2: 0.01873 ver.3: 0.01875

Param

ver.2, ver.3共通

その他(何かあれば)

sinchir0 commented 4 years ago

File

EDA : https://www.kaggle.com/sinchir0/eda-sig-id-ctl-vehicle Submit : https://www.kaggle.com/sinchir0/case2-org-mean-ctrl-vehicle-diff

手法・コメント

ctl_vehicleのデータによるg-,c-のヒストグラムは 全データのヒストグラムよりも裾が小さくなる傾向にある。

例: image

ここで触れているように、「ctl_vehicleとtrt_cpの差分を見て、MoAを決定している」という仮説が正しい場合、 ctl_vehicleのg-とc-の平均値をtrt_cpの特徴量から引いてあげれば、モデルから見てより分かりやすい特徴量になるかもしれない。

Local Score

今回 : 0.014808928458122645 元々 : 0.014805003594543058 差分 : +0.00000392486358

LB Score

今回 : 0.01911 元々 : 0.01909 差分 : +0.00002

その他(何かあれば)

微妙に悪化しただけで終わった😂

takapy0210 commented 4 years ago

File

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-cv-0-01461-lb-0-01871

手法・コメント

基本的には https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-692385207 と一緒 変更点は下記

Local Score

0.01461

LB Score

0.01871

その他(何かあれば)

一応公開notebookのスコアは超えた(csvをsubするだけのnotebookを除いて) テーブルデータのNN、どうやって改善していけば良いのか全然ワカラン・・・

masatakashiwagi commented 4 years ago

File

https://www.kaggle.com/masatakashiwagi/pytorch-umap-kmeans-multi-input-model

手法・コメント

Local Score

CV log_loss: 0.016118987564545894

LB Score

0.01984

その他(何かあれば)

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-690871592

File

https://www.kaggle.com/sinchir0/i13-try-group-k-fold-moa-pytorch-nn-starter?scriptVersionId=44257757

手法・コメント

g-,c-特徴量に対し、k-meansを行い、20個までクラスターを作成。 そのクラスター単位でgroup k-foldを実施。 お気持ちとしては、CVとLBの乖離が酷い原因として 「似たようなデータが入っていて、それがtrainとvalidに分かれるため、  CVだけ妙に良くなってしまう」を仮定し、group k-foldでそれを防げるかの検証。

UMAPで特徴量を2次元まで落とし、クラスターを可視化した結果は下記(びみょう・・・) image

Local Score

今回 : 0.015959673292945387 元々: 0.014805003594543058 差分 : +0.001154669698402

LB Score

今回 : 0.01889 元々 : 0.01909 差分 : -0.0002

その他(何かあれば)

多少はCVとLBが近づいたので良い気がする。やはりMultiLabel Stratified group k-foldが必要か🤔

takapy0210 commented 4 years ago

Base

12

File

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-ss-aggfeatures?scriptVersionId=44228109

手法・コメント

cell特徴量に対して、cp_type, cp_dose, cp_timeごとに歪度と尖度の特徴量を追加して学習 cf. https://github.com/team90s/kaggle-MoA/issues/12#issuecomment-704629547 (元のnotebookはこちら

Local Score

今回 : 0.01459 元々 : 0.01456 差分 : 0.00003

LB Score

今回 : 0.01871 元々 : 0.01868 差分 : 0.00003

その他(何かあれば)

takapy0210 commented 4 years ago

Base

12

File

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-ss-aggfeatures?scriptVersionId=44245521

手法・コメント

gene特徴量に対して、cp_type, cp_dose, cp_timeごとに歪度と尖度の特徴量を追加して学習 cf. https://github.com/team90s/kaggle-MoA/issues/12#issuecomment-704629547 (元のnotebookはこちら

Local Score

今回 : 0.01499 元々 : 0.01456 差分 : 0.00043

LB Score

今回 : 0.01883 元々 : 0.01868 差分 : 0.00015

その他(何かあれば)

takapy0210 commented 4 years ago

Base

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-standardscaler?scriptVersionId=43224413

File

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-standardscaler-elu?scriptVersionId=44360228

手法・コメント

活性化関数をReLu→ELUに変更した

Local Score

今回 : 0.01533 元々 : 0.01456 差分 : 0.00067

LB Score

今回 : 0.01930 元々 : 0.01868 差分 : 0.00062

その他(何かあれば)

15

sinchir0 commented 4 years ago

Base

元kernel : https://www.kaggle.com/kailex/moa-transfer-recipe ↑をPythonで行ったkernel : https://www.kaggle.com/chriscc/kubi-pytorch-moa-transfer それを多少自分で書き換えたもの : https://www.kaggle.com/sinchir0/i14-transfer-base?scriptVersionId=44404999

File

https://www.kaggle.com/sinchir0/i14-transfer

手法・コメント

転移学習 最初はnon-scoredをtargetにして学習。 そのweightを本番のモデルに転移。 最後の出力層だけ改めて付け替えて再度学習。

7-fold 特徴量はそのまま

Local Score

今回 : 0.014906081960468448 元々 : 0.01555747767960319 差分 : -0.000651395719135

LB Score

今回 : 0.01876 元々 : 0.01910 差分 : -0.00034

その他(何かあれば)

https://www.kaggle.com/kailex/moa-transfer-recipe のコメントで

Transfer learning (without changing the recipe) helped me to improve the public score of the model from 0.01883 to 0.01878. The relative difference is not that big, but noticeable.

とある。0.01883 - 0.01878 = 0.00005のため、このコメントよりかはLB下がっている。

Transfer Learning未経験なので、誰かレビューしてくれると嬉しいです😂

Pytorchによる発展ディープラーニング p.17-31「転移学習の実装」も参考にしてます。

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706531858

File

https://www.kaggle.com/sinchir0/i14-transfer-pca-var-thr

手法・コメント

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706531858  に対し、PCAを行い、VarianceThresholdを行ったもの。 元々の特徴量数876に対し、PCAで33個追加し合計909個。 VarianceThresholdで4個減らし、905個。

Local Score

今回 : 0.014850493316133343 元々 : 0.014906081960468448 差分 : -0.000055588644335

LB Score

今回 : 0.01873 元々 : 0.01876 差分 : -0.00003

その他(何かあれば)

ほぼ変わりませんでした😣

takapy0210 commented 4 years ago

Base

Link(File)

手法・コメント

Local Score

今回 : 0.01455 元々 : 0.01456 差分 : -0.00001

LB Score

今回 : 0.01867 元々 : 0.01868 差分 : -0.00001

その他(何かあれば)

takapy0210 commented 4 years ago

Base

Link(File)

手法・コメント

23 を参考に、gene, cellそれぞれのクラスタ特徴量を追加した

baseにしたモデルとスコアはほぼ変わらず。。。

Local Score

今回 : 0.01455 元々 : 0.01455 差分 : 0

LB Score

今回 : 0.01867 元々 : 0.01867 差分 : 0

その他(何かあれば)

関連ISSUE: #22

masatakashiwagi commented 4 years ago

Base

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-standardscaler?scriptVersionId=43224413

Link(File)

手法・コメント

モデル: g- / c- / all feats(g-/c-/cp-)の特徴量をそれぞれ分けて3 inputとしてMLPを行った

実験1

Local Score

今回: 0.015264159755005106 元々: 0.014564886043488417 差分: 0.0006992737115

LB Score

今回: 0.01927 元々: 0.01867 差分: 0.0006

実験2

Local Score

今回: 0.015213956350176748 元々: 0.014564886043488417 差分: 0.0006490703067

LB Score

今回: 0.01924 元々: 0.01867 差分: 0.00057

その他(何かあれば)

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706621572

Link(File)

https://www.kaggle.com/sinchir0/transfer-pca-var-thr-with-label-smoothing?scriptVersionId=44694641

手法・コメント

label smoothingの実施。loss関数の中に組み込んでいる。(tensorflowの実装を再現している) 例えばsmoothing=0.001の場合、 target=[1,0,0]→[0.995,0.005,0.005]とするような変換。 これで精度が改善する理由がいまいち想像つかない・・・🤔 今週MTGでも相談させてください。

Local Score

今回 : 0.015036533616153038 元々 : 0.014850493316133343 差分 : +0.00018604030002

LB Score

今回 : 0.01866 元々 : 0.01873 差分 : -0.00007

その他(何かあれば)

CVは悪化、一方LBは改善。これはCVとLBが近づいたとみるべきなのか、 それともCVとLBの相関が取れなくなって悲しむべきなのか・・・😂

loss関数の中に組み込むのではなくてpostprocess的に出力値を0.001と0.999でclipするのもやってみたい。

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708697621

Link(File)

https://www.kaggle.com/sinchir0/transfer-pca-var-thr-lab-sm-pp?scriptVersionId=44736004

手法・コメント

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708697621 に加えて、更にpostprocessとして predの値を0.005~0.995に調整

Local Score

今回 : 0.015194962540935726 元々 : 0.015036533616153038 差分 : +0.000158428924783

LB Score

今回 : 0.01878 元々 : 0.01866 差分 : +0.00012

その他(何かあれば)

悪化した、postprocessとしてpredの値を変えるのは有効に機能しない?

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708697621

Link(File)

https://www.kaggle.com/sinchir0/transfer-pca-var-thr-lab-sm-metric-logloss/output?scriptVersionId=44772638

手法・コメント

元々はlable smoothingしたloglossをlossにもEarlyStopping用のmetricにも使っていたが、 lossは維持したまま、metricのloglossのみ元(pytorchのBCEWithLogitsLoss)に戻した。

Local Score

今回 : 0.015021585144778013 元々 : 0.015036533616153038 差分 : -0.000014948471375

LB Score

今回 : 0.01863 元々 : 0.01866 差分 : -0.00003

その他(何かあれば)

label smoothingによるloglossの最適化のためには、lossの計算時のみlabel smoothingして、EarlyStoppingは普通のmetricにするのがよさそう。

sinchir0 commented 4 years ago

Base

https://www.kaggle.com/optimo/tabnetregressor-2-0-train-infer

Link(File)

https://www.kaggle.com/sinchir0/tabnetregressor-2-0-train-infer

手法・コメント

元々のNotebookをそのまま出した。Tabnetのベースライン。

Local Score

今回 : Overall AUC : 0.752557483010363 Average CV : 0.015532370835690834 元々 : 差分 :

LB Score

今回 : 0.01864 元々 : 差分 :

その他(何かあれば)

N/A

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-710709431

Link(File)

https://www.kaggle.com/sinchir0/remove-vehicle-tabnetreg/notebook

手法・コメント

trainからctrl_vehicleを削除

Local Score

今回 : Overall AUC : 0.7372828271871401 Average CV : 0.01675025880546272 元々 : Overall AUC : 0.752557483010363 Average CV : 0.015532370835690834 差分 : Overall AUC : -0.0152746558232229 Average CV : -0.0012178888

LB Score

今回 : 0.01867 元々 : 0.01864 差分 : 0.00003

その他(何かあれば)

trainのctrl_vehicle削除すると、CVは下がったけどLB上がった。うーん、という感じ。AUCに関してはどう評価すればいいのかよくわからない。

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-710711925

Link(File)

https://www.kaggle.com/sinchir0/lable-smoothing-remove-vehicle-tabnetreg

手法・コメント

label smoothingの追加、trainのlossのみに適用。EarlyStoppingはpytorchのBCEWithLogitsLoss

Local Score

今回 : Overall AUC : 0.7272430082348218 Average CV : 0.01691540708796658 元々 : Overall AUC : 0.7372828271871401 Average CV : 0.01675025880546272 差分 : Overall AUC : -0.0100398189523183 Average CV : +0.00016

LB Score

今回 : 0.01857 元々 : 0.01867 差分 : -0.00010

その他(何かあれば)

CVはあがって、LBは下がる🤔