takapy0210 commented 4 years ago

submissionを共有するISSUEです. コメントにsubの詳しい内容を、↓のテーブル（sub履歴）にそのリンクをまとめていきましょう💪 （コメントはテンプレをうまく使ってください〜！）

sub履歴

スプレッドシートに移行しました！末尾に追記していってください！（リンク知ってる人は全員見れるので、拡散注意でお願いします🙏） →https://docs.google.com/spreadsheets/d/1ulNrt4Mo__D5ihxYcp0dwDKm1qa8sfbYJxus1kjyquo/edit

Date	Link	Local Score	LB Score	memo
M/D	この行をコピーして使ってね	hoge	hoge	hoge
9/9	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-695860538	0.01461	0.02417	GBDT
9/10	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-690113004	0.01592	0.02008
9/11	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-690871592	0.01480	0.01909
9/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-692385207	0.01463	0.01875
9/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-695799072	0.01480	0.01911	ctl_vehicleのデータの平均を引いてみる
9/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-695860538	0.01461	0.01871
10/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-703048900	0.01611	0.01984
10/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-705273929	0.01595	0.01889	Group k-fold
10/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-705480242	0.01459	0.01871
10/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-705481676	0.01499	0.01883
10/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706213034	0.01533	0.01930	活性化関数をReLu→ELUに変更
10/D	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706531858	0.01490	0.01876	Transfer Learning
10/10	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706621572	0.01485	0.01873	PCA Variance Threshold
10/12	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708359683	0.01521	0.01924	モデルのinputと中間層の調整
10/13	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-707418373	0.01455	0.01867	add stats features
10/14	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708340703	0.01455	0.01867	add stats features + cluster
10/14	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-708697621	0.01503	0.01866	loss関数の中にlabel smoothingを加える
10/15	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-709168736	0.01519	0.01878	loss内でのlabel smoothingに加え、postprocessとしてlabel smoothingを実施
10/15	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-709306080	0.01502	0.01863	loss内ではlabel smoothingを行い、cvは普通のlogloss(pytorchのBCEWithLogitsLoss)で計算。
10/16	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-710709431	0.01553	0.01864	Tabnetのベースライン
10/16	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-710711925	0.01675	0.01867	Tabnet,trainからctrl_vehicleのデータを削除
10/16	https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-710734024	0.01692	0.01857	Tabnet, label smoothing
10/16	https://github.com/team90s/kaggle-MoA/issues/30#issue-724001900	0.01737	0.01876	Tabnet, n_step1→3に変更
10/16	https://github.com/team90s/kaggle-MoA/issues/31#issue-724003104	0.01749	0.01890	Tabnet, mask_typeをentmaxからsparsemaxに変更
10/17	https://github.com/team90s/kaggle-MoA/issues/29#issue-723963036	0.01508	0.01871	postpricessとして、predの値を0.005,0.995でclip
10/18	https://github.com/team90s/kaggle-MoA/issues/32#issue-724157740	0.01692	0.01857	Tabnet, gammaを1.3→2.0に変更
10/24	https://github.com/team90s/kaggle-MoA/issues/33#issue-728732533	0.01688	0.01859	Tabnet, transfer
10/24	https://github.com/team90s/kaggle-MoA/issues/34#issue-728736893	0.01499	0.01857	nn, rankgauss
10/25	https://github.com/team90s/kaggle-MoA/issues/39#issue-729515730	NA	0.01846	Ensemble, 単純平均, nn(0.01857), tabnet(0.01857)
10/25	https://github.com/team90s/kaggle-MoA/issues/40#issue-729526936	0.01692	0.01847	Tabnet, rankgauss
10/26	https://github.com/team90s/kaggle-MoA/issues/42	0.01594954	0.01878	TF swish adjust
10/26	https://github.com/team90s/kaggle-MoA/issues/44#issue-729959012	0.01660	0.01854	Resnet baseline
10/26	https://github.com/team90s/kaggle-MoA/issues/43#issue-729603582	0.016914	0.01854	Tabnet,n_a 24→32, n_d 24→32
10/26-30	https://github.com/team90s/kaggle-MoA/issues/49#issue-733674260	0.0149934	0.01863	NN leakyreluを使用
10/26-30	https://github.com/team90s/kaggle-MoA/issues/50#issue-733678327	0.01501	0.01861	NN, hidden sizeを小さくする
10/26-30	https://github.com/team90s/kaggle-MoA/issues/51#issue-733679242	0.016776	0.01859	Resnet, ranlgauss
10/26-30	https://github.com/team90s/kaggle-MoA/issues/52#issue-733681683	0.016907	0.01846	Tabnet, SeedAve
10/26-30	https://github.com/team90s/kaggle-MoA/issues/53#issue-733686006	0.017665	0.01898	Tabnet, n_steps & gamma
10/31	https://github.com/team90s/kaggle-MoA/issues/55	-	0.01839	Ensemble, 単純平均, nn(0.01857),tabnet(0.01846),nn_highscorekernel(0.01846)
10/31	https://github.com/team90s/kaggle-MoA/issues/56#issue-733828085	0.01691	0.01847	tabnetに統計的特徴量(sum,mean,std,kurtskew)を追加
11/1	https://github.com/team90s/kaggle-MoA/issues/59	0.01603463925770187	0.01873	TFのMLPで、活性化関数をReluで実験
11/1	https://github.com/team90s/kaggle-MoA/issues/59	0.01602792549896504	0.01873	TFのMLPで、活性化関数をleaky_ReLUで実験
11/1	https://github.com/team90s/kaggle-MoA/issues/59	0.015929521084947655	0.01867	TFのMLPで、活性化関数をswishで実験
11/1	https://github.com/team90s/kaggle-MoA/issues/59	0.016425334909911382	0.01859	TFのResnetを実験
11/1	https://github.com/team90s/kaggle-MoA/issues/67	0.01631410100184313	0.01854	TFのResnetのlabel smoothingの範囲を0.001〜0.999から0.0005〜0.9995に変更して実験
11/5	https://github.com/team90s/kaggle-MoA/issues/73#issue-736476585	0.01515	0.01876	NN high score kernelに対し、第一層dropoutの復活、transfer+AdamW
11/5	https://github.com/team90s/kaggle-MoA/issues/74#issue-736479696	0.01458	0.01840	NN high score kernelそのまま
11/6	https://github.com/team90s/kaggle-MoA/issues/77#issue-738154232	0.01464	0.01841	NN high score kernel drug cv
11/7	https://github.com/team90s/kaggle-MoA/issues/78#issue-738155274		0.01844	Blend, tawarasan(CV:0.01586, LB:0.01844), tabnet(CV:0.01690,LB:0.01846), NN(CV:0.01464,LB:0.01846)

takapy0210 commented 4 years ago

File

Training: https://www.kaggle.com/takanobu0210/basemodel-lightgbm （ver.3） submittion: https://www.kaggle.com/takanobu0210/baselinemodel-submit

手法・コメント

LIghtGBMで206（targetの数）のモデルを作って、それぞれで推論
validationはskfでk=3（5でやろうとしたけど時間かかりそうだったのでいったん3でトライ）
カテゴリ毎にc- カラムの集計特徴量を生成（g- カラムは時間の都合で試していません）
~Trainingのkernelをsubmitすると再実行を待たないといけなさそう？だったので~ 普通にインターネット ONになってて提出できないだけでした・・・、submissionのkernelと分けました
- 普通にsubmitするとエラーになるので、ひと工夫必要でした（なぜこの工夫が必要なのかはまだ追えてない）

Local Score

0.016317790747151707

LB Score

0.02417

その他（何かあれば）

N/A

takapy0210 commented 4 years ago

File

Training: https://www.kaggle.com/takanobu0210/basemodel-lightgbm?scriptVersionId=42348176

手法・コメント

基本的に https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-689205962 と同じ
集約特徴量を減らした
LightGBMのパラメータをこのカーネルを参考に変更した
CVのkを3→5に増やした

Local Score

0.015926739456905037

LB Score

0.02008

その他（何かあれば）

モデルごと（206個）にFeature Importanceと、全モデルの平均したFeature Importanceも出してみたので、よければ見てみてください〜！
モデル毎（ターゲット毎）に需要な特徴量が違うのはもちろんですが、fold間での分散もかなり違っていて、少し気になりました。

sinchir0 commented 4 years ago

File

https://www.kaggle.com/sinchir0/moa-pytorch-nn-starter

手法・コメント

NakamaさんNotebookをそのままSubmitしてます。ベースラインとして。

・特徴量 : オリジナルから変更なし・CV : MultilabelStratifiedKFold 5 folds ・Loss : BCEWithLogitsLoss ・Optimizer : Adam ・Scheduler : OneCycleLR ・SeedAveraging ： 3 seed

Local Score

0.014805003594543058

LB Score

0.01909

Param

max_grad_norm=1000
gradient_accumulation_steps=1
hidden_size=512
dropout=0.5
lr=1e-2
weight_decay=1e-6
batch_size=32
epochs=20

その他（何かあれば）

・時間 : Commit 約32分 Submit ?分

takapy0210 commented 4 years ago

File

このnotebookをアレンジしてsub ver.2: https://www.kaggle.com/takanobu0210/new-baseline-pytorch-moa?scriptVersionId=42667922 ver.3: https://www.kaggle.com/takanobu0210/new-baseline-pytorch-moa?scriptVersionId=42681153

手法・コメント

ベースとしたnotebookに、SVDとUMAPでの特徴量を追加した。
- ver.2では、特徴量を追加したのち、VarianceThreshold(threshold=0.5) で特徴量選択して学習（feature = 1,010個）
- ver.3では、上記の特徴量選択をせずにそのまま学習（feature = 1,070個）
LBのスコアはver.2 > ver.3という結果になった
CV: MultilabelStratifiedKFold(n_splits=5)
Loss : BCEWithLogitsLoss
Optimizer : Adam
Scheduler : OneCycleLR
SeedAveraging ： 6 seed

Local Score

ver.2: 0.014638007006513873 ver.3: 0.01464625646558292

LB Score

ver.2: 0.01873 ver.3: 0.01875

Param

ver.2, ver.3共通

EPOCHS = 25
BATCH_SIZE = 128
LEARNING_RATE = 1e-3
WEIGHT_DECAY = 1e-5
hidden_size=1024

その他（何かあれば）

notebookの実行時間は30m~40mほど
SeedAveragingを増やして実行してみても良いかもしれない

sinchir0 commented 4 years ago

File

EDA : https://www.kaggle.com/sinchir0/eda-sig-id-ctl-vehicle Submit : https://www.kaggle.com/sinchir0/case2-org-mean-ctrl-vehicle-diff

手法・コメント

ctl_vehicleのデータによるg-,c-のヒストグラムは全データのヒストグラムよりも裾が小さくなる傾向にある。

例：

ここで触れているように、「ctl_vehicleとtrt_cpの差分を見て、MoAを決定している」という仮説が正しい場合、 ctl_vehicleのg-とc-の平均値をtrt_cpの特徴量から引いてあげれば、モデルから見てより分かりやすい特徴量になるかもしれない。

Local Score

今回 : 0.014808928458122645 元々 : 0.014805003594543058 差分 : +0.00000392486358

LB Score

今回 : 0.01911 元々 : 0.01909 差分 : +0.00002

その他（何かあれば）

微妙に悪化しただけで終わった😂

takapy0210 commented 4 years ago

File

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-cv-0-01461-lb-0-01871

手法・コメント

基本的には https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-692385207 と一緒変更点は下記

PCA + SVDで特徴量生成（UMAPは使用せず）
NNの最終層DropOutの値を0.5→0.4に変更

Local Score

0.01461

LB Score

0.01871

その他（何かあれば）

一応公開notebookのスコアは超えた（csvをsubするだけのnotebookを除いて）テーブルデータのNN、どうやって改善していけば良いのか全然ワカラン・・・

masatakashiwagi commented 4 years ago

File

https://www.kaggle.com/masatakashiwagi/pytorch-umap-kmeans-multi-input-model

手法・コメント

特徴量: umapで次元削減した結果をkmeansでクラスタリングした結果を追加
モデル: g- / c- / cp-の特徴量をそれぞれ分けて3 inputとしてMLPを行った

Local Score

CV log_loss: 0.016118987564545894

LB Score

0.01984

その他（何かあれば）

umapの結果を可視化すると、クラスターがいくつかあることが分かる --> 特徴量/Validationに活かせないか？
lossがnanになるケースが何回かあり、学習率を下げる or BN層を追加する or ELUを使うなどで対応した
他にはgradient clippingが有効みたい: 参考
- 勾配消失が原因？
genes: 学習データをクラスタリングした結果
cells: 学習データをクラスタリングした結果

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-690871592

File

https://www.kaggle.com/sinchir0/i13-try-group-k-fold-moa-pytorch-nn-starter?scriptVersionId=44257757

手法・コメント

g-,c-特徴量に対し、k-meansを行い、20個までクラスターを作成。そのクラスター単位でgroup k-foldを実施。お気持ちとしては、CVとLBの乖離が酷い原因として「似たようなデータが入っていて、それがtrainとvalidに分かれるため、　CVだけ妙に良くなってしまう」を仮定し、group k-foldでそれを防げるかの検証。

UMAPで特徴量を2次元まで落とし、クラスターを可視化した結果は下記（びみょう・・・）

Local Score

今回 : 0.015959673292945387 元々: 0.014805003594543058 差分 : +0.001154669698402

LB Score

今回 : 0.01889 元々 : 0.01909 差分 : -0.0002

その他（何かあれば）

多少はCVとLBが近づいたので良い気がする。やはりMultiLabel Stratified group k-foldが必要か🤔

takapy0210 commented 4 years ago

Base

12

File

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-ss-aggfeatures?scriptVersionId=44228109

手法・コメント

cell特徴量に対して、cp_type, cp_dose, cp_timeごとに歪度と尖度の特徴量を追加して学習 cf. https://github.com/team90s/kaggle-MoA/issues/12#issuecomment-704629547 （元のnotebookはこちら）

Local Score

今回 : 0.01459 元々 : 0.01456 差分 : 0.00003

LB Score

今回 : 0.01871 元々 : 0.01868 差分 : 0.00003

その他（何かあれば）

CVとLBの相関はありそう

takapy0210 commented 4 years ago

Base

12

File

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-ss-aggfeatures?scriptVersionId=44245521

手法・コメント

gene特徴量に対して、cp_type, cp_dose, cp_timeごとに歪度と尖度の特徴量を追加して学習 cf. https://github.com/team90s/kaggle-MoA/issues/12#issuecomment-704629547 （元のnotebookはこちら）

Local Score

今回 : 0.01499 元々 : 0.01456 差分 : 0.00043

LB Score

今回 : 0.01883 元々 : 0.01868 差分 : 0.00015

その他（何かあれば）

cellで特徴量を作成したときよりスコアが悪くなっているな・・・ https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-705480242

takapy0210 commented 4 years ago

Base

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-standardscaler?scriptVersionId=43224413

File

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-standardscaler-elu?scriptVersionId=44360228

手法・コメント

活性化関数をReLu→ELUに変更した

Local Score

今回 : 0.01533 元々 : 0.01456 差分 : 0.00067

LB Score

今回 : 0.01930 元々 : 0.01868 差分 : 0.00062

その他（何かあれば）

15

スコアが悪くなったな・・・

sinchir0 commented 4 years ago

Base

元kernel : https://www.kaggle.com/kailex/moa-transfer-recipe ↑をPythonで行ったkernel : https://www.kaggle.com/chriscc/kubi-pytorch-moa-transfer それを多少自分で書き換えたもの : https://www.kaggle.com/sinchir0/i14-transfer-base?scriptVersionId=44404999

File

https://www.kaggle.com/sinchir0/i14-transfer

手法・コメント

転移学習最初はnon-scoredをtargetにして学習。そのweightを本番のモデルに転移。最後の出力層だけ改めて付け替えて再度学習。

7-fold 特徴量はそのまま

Local Score

今回 : 0.014906081960468448 元々 : 0.01555747767960319 差分 : -0.000651395719135

LB Score

今回 : 0.01876 元々 : 0.01910 差分 : -0.00034

その他（何かあれば）

https://www.kaggle.com/kailex/moa-transfer-recipe のコメントで

Transfer learning (without changing the recipe) helped me to improve the public score of the model from 0.01883 to 0.01878. The relative difference is not that big, but noticeable.

とある。0.01883 - 0.01878 = 0.00005のため、このコメントよりかはLB下がっている。

Transfer Learning未経験なので、誰かレビューしてくれると嬉しいです😂

Pytorchによる発展ディープラーニング p.17-31「転移学習の実装」も参考にしてます。

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706531858

File

https://www.kaggle.com/sinchir0/i14-transfer-pca-var-thr

手法・コメント

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706531858　に対し、PCAを行い、VarianceThresholdを行ったもの。元々の特徴量数876に対し、PCAで33個追加し合計909個。 VarianceThresholdで4個減らし、905個。

Local Score

今回 : 0.014850493316133343 元々 : 0.014906081960468448 差分 : -0.000055588644335

LB Score

今回 : 0.01873 元々 : 0.01876 差分 : -0.00003

その他（何かあれば）

ほぼ変わりませんでした😣

takapy0210 commented 4 years ago

Base

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-standardscaler?scriptVersionId=43224413

Link（File）

https://www.kaggle.com/takanobu0210/pytorch-statsfeatures?scriptVersionId=44564053

手法・コメント

もともとのコードが可読性低かったので、リファクタリングした

基礎統計量の特徴量を追加した

def feature_stats(df):
"""基礎統計量の追加
"""
df['g_sum'] = df[GENES].sum(axis=1)
df['g_mean'] = df[GENES].mean(axis=1)
df['g_std'] = df[GENES].std(axis=1)
df['g_kurt'] = df[GENES].kurtosis(axis=1)
df['g_skew'] = df[GENES].skew(axis=1)

df['c_sum'] = df[CELLS].sum(axis=1)
df['c_mean'] = df[CELLS].mean(axis=1)
df['c_std'] = df[CELLS].std(axis=1)
df['c_kurt'] = df[CELLS].kurtosis(axis=1)
df['c_skew'] = df[CELLS].skew(axis=1)

df['gc_sum'] = df[GENES + CELLS].sum(axis=1)
df['gc_mean'] = df[GENES + CELLS].mean(axis=1)
df['gc_std'] = df[GENES + CELLS].std(axis=1)
df['gc_kurt'] = df[GENES + CELLS].kurtosis(axis=1)
df['gc_skew'] = df[GENES + CELLS].skew(axis=1)

return df

Local Score

今回 : 0.01455 元々 : 0.01456 差分 : -0.00001

LB Score

今回 : 0.01867 元々 : 0.01868 差分 : -0.00001

その他（何かあれば）

若干改善した
次はk-meansのクラスタ情報を付与してみる
関連ISSUE: #22

takapy0210 commented 4 years ago

Base

https://www.kaggle.com/takanobu0210/pytorch-statsfeatures?scriptVersionId=44564053

Link（File）

https://www.kaggle.com/takanobu0210/pytorch-baseline-add-cluster?scriptVersionId=44643401

手法・コメント

23 を参考に、gene, cellそれぞれのクラスタ特徴量を追加した

baseにしたモデルとスコアはほぼ変わらず。。。

Local Score

今回 : 0.01455 元々 : 0.01455 差分 : 0

LB Score

今回 : 0.01867 元々 : 0.01867 差分 : 0

その他（何かあれば）

Base

https://www.kaggle.com/takanobu0210/pytorch-pca-svc-standardscaler?scriptVersionId=43224413

Link（File）

手法・コメント

モデル: g- / c- / all feats(g-/c-/cp-)の特徴量をそれぞれ分けて3 inputとしてMLPを行った

実験1

Local Score

今回: 0.015264159755005106 元々: 0.014564886043488417 差分: 0.0006992737115

LB Score

今回: 0.01927 元々: 0.01867 差分: 0.0006

実験2

Local Score

今回: 0.015213956350176748 元々: 0.014564886043488417 差分: 0.0006490703067

LB Score

今回: 0.01924 元々: 0.01867 差分: 0.00057

その他（何かあれば）

詳細は以下のissueにコメントしている https://github.com/team90s/kaggle-MoA/issues/17

sinchir0 commented 4 years ago

Base

https://github.com/team90s/kaggle-MoA/issues/6#issuecomment-706621572

Link（File）

https://www.kaggle.com/sinchir0/transfer-pca-var-thr-with-label-smoothing?scriptVersionId=44694641

手法・コメント

label smoothingの実施。loss関数の中に組み込んでいる。(tensorflowの実装を再現している) 例えばsmoothing=0.001の場合、 target=[1,0,0]→[0.995,0.005,0.005]とするような変換。これで精度が改善する理由がいまいち想像つかない・・・🤔 今週MTGでも相談させてください。

Local Score

今回 : 0.015036533616153038 元々 : 0.014850493316133343 差分 : +0.00018604030002

LB Score

今回 : 0.01866 元々 : 0.01873 差分 : -0.00007

その他（何かあれば）

その他（何かあれば）

CVはあがって、LBは下がる🤔

team90s / kaggle-MoA

Submissionの共有 #6

sub履歴

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

File

手法・コメント

Local Score

LB Score

Param

その他（何かあれば）

File

手法・コメント

Local Score

LB Score

Param

その他（何かあれば）

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

Base

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

Base

12

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

Base

12

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

Base

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

15

Base

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

Base

File

手法・コメント

Local Score

LB Score

その他（何かあれば）

Base