Closed Quvotha closed 3 years ago
今は何となく ②y
>200 だけで訓練したモデルと③ y
<= 200 で訓練したモデルの予測結果を ①分類器が計算した y
>200 になる確率で加重平均しているが色々やる前にまず加重平均で良いのか試したい。
備考:ここでいうモデル①②③の意味合いは以下のコメントを参照のこと https://github.com/Quvotha/aiquest2021-assesment/issues/8#issuecomment-892219128
上記 1. の方法で Local CV の改善が見られたので採用する。 次にモデル①(分類器)を改造できないかを試してみる。現状は以下の通りシンプルなロジスティック回帰。
continuous_preprocessor = Pipeline(
steps=[
('imputer', SimpleImputer(strategy='median')),
('scaler', StandardScaler())
]
)
categorical_preprocessor = OneHotEncoder(handle_unknown='ignore')
preprocessor = ColumnTransformer(
transformers=[
('categorical', categorical_preprocessor, continuous_features),
('continuous', continuous_preprocessor, discrete_features),
('others', 'passthrough', passthrough_features)
]
)
return Pipeline(
steps=[
('preprocessor', preprocessor),
('classifier', LogisticRegression(random_state=random_state,
max_iter=1000,
n_jobs=-1,
class_weight='balanced'))
]
まずはロジスティック回帰モデルの性能を上げられないかを試す。
ロジスティック回帰に TruncatedSVD を追加したところ分類器としての性能は減少した(特に precision が下がる)。だがなぜか LocalCV は改善した。
他の分類方法も検討する。以下は 05-01 をベースに行う。
valid_loss
で Local CV を評価していたが valid_losses_avg
は極端に悪かったのであまりよくなかったので今後は valid_losses_avg
が極端に悪いものは信用しない方が良いかも。次のパターンも試したい。
なぜかいきなり Local CV と PB の相関が悪くなった。05-01 で良くなったからと採用したのが判断間違いと思われる。 いったん 04-27 に戻ることにする。 ※コンペ終了間際の追記: 必ずしも 05-01 で採用した加重平均を用いるアンサンブルが悪いわけではなさそう。他のロスが良い submit と相関係数を見比べて 0.95 とかあったら信じて大丈夫そう(05-07のスコアが良かった)。
04-27 を改造して以下を試してみる (issue のタイトルと全然違うことしてる)。
また 05-07 を submit するとスコアがまあまあ良かったので見込みがあるのかもしれない。
多分 05-15 が最強だと思うが間違えて最終日の3サブを使い切ったので提出できず。
04-27 の特徴量エンジニアリングの結果を使い次は以下の 2., 3. にトライする。
9 で試した sample_weight も併せて使ってみる
Originally posted by @Quvotha in https://github.com/Quvotha/aiquest2021-assesment/issues/11#issuecomment-894767816