shunya-kato / Kaggle-Ventilator-Pressure-Prediction

MIT License
1 stars 1 forks source link

特徴量の重要度の可視化 #3

Open ohutonLabo opened 3 years ago

ohutonLabo commented 3 years ago

Kaggle notebookの環境構築を進めているものの、 メモリ不足で実行できない状況が続いており、何かしらの特徴量も削る必要がありそうです。。 https://github.com/shunya-kato/Kaggle-Ventilator-Pressure-Prediction/issues/2

そこでなのですが、実際現状の特徴量のどれが重要度が高いか確認していただける方いらっしゃるでしょうか(号泣) 重要度が低いデータを試しに削ってKaggle notebookでも動かせるような状況を作りたいと考えています! 勉強会でも似たような話が出た気がしますが、その時のページが見つけられず、 下記のページしか見つかりませんでしたが、こちらが使えるかと。。。 https://rightcode.co.jp/blog/information-technology/feature-selection-right-choice

ohutonLabo commented 3 years ago

Kaggle notebookの動作環境はあるものの、勉強がてら特徴量の重要度の可視化について触れる 実行結果がないと話が始まらなさそうなので実際に動かしてまずは実行結果を抽出する。

ohutonLabo commented 3 years ago

ちょっと古いやつかもしれないですがとりあえず1発可視化実施できました! lstm_feature_importance_fold_0.csv

ohutonLabo commented 3 years ago

image

ohutonLabo commented 3 years ago

00d961b623979559c7b051653f3d4f3c7a1cf8c7のmain.cppの特徴量重要度の可視化 lstm_feature_importance_fold_0_00d961b623979559c7b051653f3d4f3c7a1cf8c7.csv.csv image

ohutonLabo commented 3 years ago

考察も下記に書いていく。

  1. u_outの寄与があまりにも低い。状態が大きく切り替わるu_outの寄与が低い理由は? →time_stampがだいたい1.0付近に切り替わるから?少なくともu_outの差分を取る必要はあまりなさそうな気がする。  u_outの特徴量は何かしら1つに絞ってもあまりスコアが変わらない可能性が高そう。
ohutonLabo commented 3 years ago
  1. cross,cross2について →u_outが0か1なので0の時はすべてcross,cross2が0になってしまう。  u_outについて1,-1にしたほうが意味のあるデータになったりするか?
ohutonLabo commented 3 years ago

u_outを0->1, 1->-1にしてみた。 これは間違い、dfのu_outを変更したのは事実だが、特徴量の更新を行っていない。 Epoch 265/500 30/30 [==============================] - 50s 2s/step - loss: 0.0911 - val_loss: 0.1860 image lstm_feature_importance_fold_0 (2).csv

ohutonLabo commented 3 years ago

add_features + u_outの0->1, 1->-1にしたもの。 result (1) lstm_feature_importance_fold_0 (3).csv log (1).txt crossが大きく貢献度上昇している。

Todo: このlogのプログラムを使ってu_outを切り替えなかった場合を確認すること。