data分析competition titanic

idekazuki commented 4 years ago

competitionで気をつけること・外部データの使用禁止・ハンドラベリングの禁止・再現性の確保

再現性を確保するためには乱数のシード値を設定する必要がある。
random_state で指定することが多い。例データの分割 scikit-learn のtrain_test_split()で訓練用データとテスト用データに分割するとき、分割はランダムに行われるので引数のrandom_stateでseed値を固定する必要がある。 X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.3, random_state=42) ロジスティック回帰を用いて学習する時
```
lr = LogisticRegression(random_state=42)
```

lr.fit(X_train, y_train)

idekazuki commented 4 years ago

データ分析の大まかな流れライブラリ・データ読み込みデータの概観・分析・前処理ベースラインモデルの構築特徴量エンジニアリング様々なモデルの構築・調整モデルのアンサンブリング予測の出力・提出

idekazuki commented 4 years ago

ランダムフォレスト法で指定できるパラメータは以下の通り。 max_depth：決定木の深さの最大値 min_samples_leaf：葉が含むサンプル数の最小値 n_estimators：決定木の数 n_jobs：計算に用いるスレッド数 random_state：乱数生成のシード値

idekazuki / diary