Quvotha / aiquest2021-assesment

1 stars 0 forks source link

`make_or_load_vector` で計算結果の再現性を担保できない #13

Open Quvotha opened 3 years ago

Quvotha commented 3 years ago

発生事象

text_feature_extraction.pymake_or_load_vector について name+description を対象に lda_count でベクトル化を行おうとした場合に結果の再現がうまくいかない問題を見つけた。

  1. 文章ベクトルを計算してスコアを出す
  2. overwrite のフラグを False にして 1. でファイルに保存した文章ベクトルを読み込んでも 1. と同じ結果を再現できない
  3. overwrite のフラグを True にして文章ベクトルを毎回計算させる(ファイルに出力した結果を使わない)と 1. と同じ結果を再現できる
  4. overwrite を True にして複数回実行するとその都度同じ結果を再現できる
  5. 文章ベクトルが保存されている状態で overwrite を False にして複数回実行すると毎回同じ結果を再現できるが 4. とは異なる結果である(4. の方がスコアは良い)

保存する時に小数点以下の桁落ち等が発生している?時間が無いので詳しく調べていない。コンペが終わってから調べる。

Originally posted by @Quvotha in https://github.com/Quvotha/aiquest2021-assesment/issues/12#issuecomment-894761262