Open idekazuki opened 4 years ago
データ分析の大まかな流れ ライブラリ・データ読み込み データの概観・分析・前処理 ベースラインモデルの構築 特徴量エンジニアリング 様々なモデルの構築・調整 モデルのアンサンブリング 予測の出力・提出
ランダムフォレスト法で指定できるパラメータは以下の通り。 max_depth:決定木の深さの最大値 min_samples_leaf:葉が含むサンプル数の最小値 n_estimators:決定木の数 n_jobs:計算に用いるスレッド数 random_state:乱数生成のシード値
competitionで気をつけること ・外部データの使用禁止 ・ハンドラベリングの禁止 ・再現性の確保
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.3, random_state=42)
ロジスティック回帰を用いて学習する時lr.fit(X_train, y_train)