Open calpis10000 opened 3 years ago
BoWベースの特徴は一通り網羅しておきたい。(あんま変わらんだろうけど)
5/31 残:
LDAの特徴量を作っておきたい。
今回のタスクだと効かない気もするが、今後のためにクラスを実装して使いっぷりを試しておきたい。
優先度は限りなく下で、アイディアが尽きたら or コンペ終了後に試す想定。
よくよく考えるとデータセットを理解するのに役立ちそうなので、コンペ期間内に一度はやってみたい。
モデルをlightgbmから他のやつに変更したい。 目的変数・特徴量ともに連続値かつ急激な境界が無いので、lgbmを使う利点があんまりなさそう。 かつ、ベクトル表現の特徴が大部分なので、importanceを見るモチベも薄い。
colabで実験できるようになったので、transformersで学習済みモデルを色々試してみたい。 今回よく効くらしいRoBertaを、まず試してみよう。
notebookコンペは、学習自体はnotebookで行わなくて良く、 推論がnotebook上で行われていれば良い。 そのため、trainに対する特徴生成はnotebookで行う必要がない。
一方、testデータに対するembeddingはnotebookで行った方が良い。
BERT fine-tunedモデルについて
手作り特徴とのアンサンブルは爆死したので、 BERT系のSingle Modelに集中する。
読んだ。シンプルに分かりやすくまとまっていて、ありがたかった。 https://www.kaggle.com/andretugan/lightweight-roberta-solution-in-pytorch
これをベースにいろんな改修を加えていく。 みんなやってそうなやつ → 論文実装的なやつ、の順でやっていきたい。 とりあえず、Discussionを漁ればいい感じの知見が得られるかな?
Fine-Tuningに関する記事。 https://www.kaggle.com/rhtsingh/commonlit-readability-prize-roberta-torch-itpt?scriptVersionId=63560998
細かめに読んでいく予定。 torch氏はこの他にも有益そうなnotebookを発表してくれていて、 控えめに言ってネ申。
精度評価を、もうちょっと精密にやりたい。
word_lengthで精度が伸びたので、 他の特徴も、上手く使えば精度向上につながるのでは。
単語長は効いたが、TFIDFは全然効かなくてやばい。
TFIDFとかカウントとかで色を出すよりは、 単純にBag of Wordsで「どの単語があると読みやすい/づらい」を特徴化しても良いのかな。
targetと相関係数の高い/低い 単語は見ときたい
(コンペ終了後の感想) 実験をissueで管理するようにした事で、 過去の実験を思い出す負荷が減り、モチベが下がりにくくなった。 これはやって良かった。
ただ、コンペ終了後に振り返ると何やってたか全然わからない作りになってるので、 もうちょっと工夫したい。
もっと簡単に、実験管理スレを1つたてて、そこに結果を全部書くようにすれば良いのかな。
MLflowなる仕組みを取り入れたい。 https://future-architect.github.io/articles/20200626/
ただ、いきなり飛躍するとうまくいかないので、 中間地点としてできることはやっておきたい。 (パラメータをconfigで管理するとか、実行コードを.ipynbじゃなくて.pyで管理するとか)
ここはお前の日記帳だ。
思い付いた事何でも書いていい。な!