calpis10000 / commonlit

https://www.kaggle.com/c/commonlitreadabilityprize
0 stars 0 forks source link

OTH_日記帳(やりたい事を雑多に書く) #14

Open calpis10000 opened 3 years ago

calpis10000 commented 3 years ago

ここはお前の日記帳だ。
思い付いた事何でも書いていい。な!

image

calpis10000 commented 3 years ago

BoWベースの特徴は一通り網羅しておきたい。(あんま変わらんだろうけど)

calpis10000 commented 3 years ago

5/31 残:

calpis10000 commented 3 years ago

calpis10000 commented 3 years ago

LDAの特徴量を作っておきたい。 今回のタスクだと効かない気もするが、今後のためにクラスを実装して使いっぷりを試しておきたい。 優先度は限りなく下で、アイディアが尽きたら or コンペ終了後に試す想定。 よくよく考えるとデータセットを理解するのに役立ちそうなので、コンペ期間内に一度はやってみたい。

calpis10000 commented 3 years ago

モデルをlightgbmから他のやつに変更したい。 目的変数・特徴量ともに連続値かつ急激な境界が無いので、lgbmを使う利点があんまりなさそう。 かつ、ベクトル表現の特徴が大部分なので、importanceを見るモチベも薄い。

代替モデル

calpis10000 commented 3 years ago

colabで実験できるようになったので、transformersで学習済みモデルを色々試してみたい。 今回よく効くらしいRoBertaを、まず試してみよう。

calpis10000 commented 3 years ago

notebookコンペは、学習自体はnotebookで行わなくて良く、 推論がnotebook上で行われていれば良い。 そのため、trainに対する特徴生成はnotebookで行う必要がない。

一方、testデータに対するembeddingはnotebookで行った方が良い。

こういう仕組み作りたい

上を受けて

calpis10000 commented 3 years ago

2021-06-26

欲望

calpis10000 commented 3 years ago

2021-06-27

やる事

calpis10000 commented 3 years ago

BERT fine-tunedモデルについて

calpis10000 commented 3 years ago

手作り特徴とのアンサンブルは爆死したので、 BERT系のSingle Modelに集中する。

calpis10000 commented 3 years ago

読んだ。シンプルに分かりやすくまとまっていて、ありがたかった。 https://www.kaggle.com/andretugan/lightweight-roberta-solution-in-pytorch

これをベースにいろんな改修を加えていく。 みんなやってそうなやつ → 論文実装的なやつ、の順でやっていきたい。 とりあえず、Discussionを漁ればいい感じの知見が得られるかな?

calpis10000 commented 3 years ago

Fine-Tuningに関する記事。 https://www.kaggle.com/rhtsingh/commonlit-readability-prize-roberta-torch-itpt?scriptVersionId=63560998

細かめに読んでいく予定。 torch氏はこの他にも有益そうなnotebookを発表してくれていて、 控えめに言ってネ申。

calpis10000 commented 3 years ago

精度評価を、もうちょっと精密にやりたい。

calpis10000 commented 3 years ago

word_lengthで精度が伸びたので、 他の特徴も、上手く使えば精度向上につながるのでは。

calpis10000 commented 3 years ago

単語長は効いたが、TFIDFは全然効かなくてやばい。

calpis10000 commented 3 years ago

TFIDFとかカウントとかで色を出すよりは、 単純にBag of Wordsで「どの単語があると読みやすい/づらい」を特徴化しても良いのかな。

targetと相関係数の高い/低い 単語は見ときたい

calpis10000 commented 3 years ago

(コンペ終了後の感想) 実験をissueで管理するようにした事で、 過去の実験を思い出す負荷が減り、モチベが下がりにくくなった。 これはやって良かった。

ただ、コンペ終了後に振り返ると何やってたか全然わからない作りになってるので、 もうちょっと工夫したい。

もっと簡単に、実験管理スレを1つたてて、そこに結果を全部書くようにすれば良いのかな。

calpis10000 commented 3 years ago

MLflowなる仕組みを取り入れたい。 https://future-architect.github.io/articles/20200626/

ただ、いきなり飛躍するとうまくいかないので、 中間地点としてできることはやっておきたい。 (パラメータをconfigで管理するとか、実行コードを.ipynbじゃなくて.pyで管理するとか)