Quvotha / aiquest2021-assesment

1 stars 0 forks source link

Exp05: 分類器の作り方を変える #14

Closed Quvotha closed 3 years ago

Quvotha commented 3 years ago

04-27 の特徴量エンジニアリングの結果を使い次は以下の 2., 3. にトライする。

  1. モデルの分け方を変える(y>N のN)
  2. 分類器を変える
  3. モデル②③で別々のモデルを使ってみる
  4. 9 で試した sample_weight も併せて使ってみる

Originally posted by @Quvotha in https://github.com/Quvotha/aiquest2021-assesment/issues/11#issuecomment-894767816

Quvotha commented 3 years ago

混ぜ方をどうするか

今は何となく ②y>200 だけで訓練したモデルと③ y<= 200 で訓練したモデルの予測結果を ①分類器が計算した y>200 になる確率で加重平均しているが色々やる前にまず加重平均で良いのか試したい。

備考:ここでいうモデル①②③の意味合いは以下のコメントを参照のこと https://github.com/Quvotha/aiquest2021-assesment/issues/8#issuecomment-892219128

Quvotha commented 3 years ago

上記 1. の方法で Local CV の改善が見られたので採用する。 次にモデル①(分類器)を改造できないかを試してみる。現状は以下の通りシンプルなロジスティック回帰。

    continuous_preprocessor = Pipeline(
        steps=[
            ('imputer', SimpleImputer(strategy='median')),
            ('scaler', StandardScaler())
        ]
    )
    categorical_preprocessor = OneHotEncoder(handle_unknown='ignore')
    preprocessor = ColumnTransformer(
        transformers=[
            ('categorical', categorical_preprocessor, continuous_features),
            ('continuous', continuous_preprocessor, discrete_features),
            ('others', 'passthrough', passthrough_features)
        ]
    )
    return Pipeline(
        steps=[
            ('preprocessor', preprocessor),
            ('classifier', LogisticRegression(random_state=random_state,
                                              max_iter=1000,
                                              n_jobs=-1,
                                              class_weight='balanced'))
        ]

まずはロジスティック回帰モデルの性能を上げられないかを試す。

Quvotha commented 3 years ago

ロジスティック回帰に TruncatedSVD を追加したところ分類器としての性能は減少した(特に precision が下がる)。だがなぜか LocalCV は改善した。

他の分類方法も検討する。以下は 05-01 をベースに行う。

  1. の Local CV がぶっちぎりで良くなったが PB は断トツワーストという結果になった。valid_loss で Local CV を評価していたが valid_losses_avg は極端に悪かったのであまりよくなかったので今後は valid_losses_avg が極端に悪いものは信用しない方が良いかも。

次のパターンも試したい。

Quvotha commented 3 years ago

なぜかいきなり Local CV と PB の相関が悪くなった。05-01 で良くなったからと採用したのが判断間違いと思われる。 いったん 04-27 に戻ることにする。 ※コンペ終了間際の追記: 必ずしも 05-01 で採用した加重平均を用いるアンサンブルが悪いわけではなさそう。他のロスが良い submit と相関係数を見比べて 0.95 とかあったら信じて大丈夫そう(05-07のスコアが良かった)。

Quvotha commented 3 years ago

04-27 を改造して以下を試してみる (issue のタイトルと全然違うことしてる)。

また 05-07 を submit するとスコアがまあまあ良かったので見込みがあるのかもしれない。

多分 05-15 が最強だと思うが間違えて最終日の3サブを使い切ったので提出できず。