Quvotha / aiquest2021-assesment

1 stars 0 forks source link

間違えて特徴量エンジニアリングのコード消しちゃった #12

Closed Quvotha closed 3 years ago

Quvotha commented 3 years ago

feature_engineering.py と text_feature_engineering.py のコードを派手に消してしまった。ローカルで commit してなかったので復元もできなさそう。再作成する。

Quvotha commented 3 years ago

対処完了したが 04-27 は再現できずロスを上昇させてしまった。

text_feature_extraction.pymake_or_load_vector について name+description を対象に lda_count でベクトル化を行おうとした場合に結果の再現がうまくいかない問題を見つけた。

  1. 文章ベクトルを計算してスコアを出す
  2. overwrite のフラグを False にして 1. でファイルに保存した文章ベクトルを読み込んでも 1. と同じ結果を再現できない
  3. overwrite のフラグを True にして文章ベクトルを毎回計算させる(ファイルに出力した結果を使わない)と 1. と同じ結果を再現できる
  4. overwrite を True にして複数回実行するとその都度同じ結果を再現できる
  5. 文章ベクトルが保存されている状態で overwrite を False にして複数回実行すると毎回同じ結果を再現できるが 4. とは異なる結果である(4. の方がスコアは良い)

保存する時に小数点以下の桁落ち等が発生している?時間が無いので詳しく調べていない。コンペが終わってから調べる。