OTH_日記帳（やりたい事を雑多に書く）

calpis10000 commented 3 years ago

ここはお前の日記帳だ。
思い付いた事何でも書いていい。な！

calpis10000 commented 3 years ago

BoWベースの特徴は一通り網羅しておきたい。（あんま変わらんだろうけど）

TF-IDF: Done
CountVectorizer: Done
BM25: 一旦放置。

calpis10000 commented 3 years ago

5/31 残:

SWEM: Done
品詞のカウント: Done
学習済みBERTの検討:
↑をやり尽くしたら、Discussion, nbからネタ収集

calpis10000 commented 3 years ago

特徴（というか、作成用のクラス）が増えてきたので、実験効率化の仕組みを作りたい。

案

listにクラスを入れて実行したら、自動的に特徴が作成される仕組み
且つ、過去に実行済みのクラスは所定のフォルダにpickle保存されており、dryrun時にはそこから読み出す仕組み。
要は、atma初心者講座のgotoさん式をそのまま流用 or カスタマイズしたい、という事。
- コードの理解に時間かかりそうなので、まとまった時間が取れそうで、他にやる事が無い時にやる。

calpis10000 commented 3 years ago

LDAの特徴量を作っておきたい。今回のタスクだと効かない気もするが、今後のためにクラスを実装して使いっぷりを試しておきたい。 ~~優先度は限りなく下で、アイディアが尽きたら or コンペ終了後に試す想定。~~ よくよく考えるとデータセットを理解するのに役立ちそうなので、コンペ期間内に一度はやってみたい。

calpis10000 commented 3 years ago

モデルをlightgbmから他のやつに変更したい。目的変数・特徴量ともに連続値かつ急激な境界が無いので、lgbmを使う利点があんまりなさそう。かつ、ベクトル表現の特徴が大部分なので、importanceを見るモチベも薄い。

代替モデル

SVM: 公開notebookでもよく使われている。最有力候補。
線形回帰: 重要度を知りたいなら、こっちでも実は十分か？ SVMとスタッキングしても良いか。
なんかDeepなやつ: NNでベクトル作って他のアルゴリズムに食わせるよりは、全部NNで完結する方が効率的かも。NN分からんマンなので、NN以外をやり尽くしてから検討する。

calpis10000 commented 3 years ago

colabで実験できるようになったので、transformersで学習済みモデルを色々試してみたい。今回よく効くらしいRoBertaを、まず試してみよう。

calpis10000 commented 3 years ago

notebookコンペは、学習自体はnotebookで行わなくて良く、推論がnotebook上で行われていれば良い。そのため、trainに対する特徴生成はnotebookで行う必要がない。

一方、testデータに対するembeddingはnotebookで行った方が良い。

こういう仕組み作りたい

trainデータは既存の特徴があればスキップ
- testデータ生成用に、モデル(Class)は保存する必要がある？
- fasttextはpickle保存出来ないなど、制限はある。選択できるようにしたい。
testデータの特徴量は都度生成。
- trainの情報が必要なものと、そうでないものがある。
- 必要:
  - TF-IDF（trainも、学習し直しが必要）
  - W2V（ただし、既に特徴量からは除外している）
- 不要:
  - 他全部

上を受けて

Blockにskip（dryrun?）フラグを付ければ解決しそう。

calpis10000 commented 3 years ago

2021-06-26

仕事疲れでやる気が全く出ないため、作業を打ち切る。
欲望だけここに書き連ねて置いてゆく。

欲望

既存モデルとハイスコアkernelのアンサンブル
- これをやるために、既存モデルの作成済み特徴をスキップする仕組みをkaggle-nb上にも適用させたい。
ハイスコアkernelの理解
- 本来、まっさきにやりたいこと。
- Colabで処理を回す準備をする。
- ライブラリの整備
- 学習済みmodelのDL -> GDriveへ移動（必要ないかも？）

calpis10000 commented 3 years ago

2021-06-27

ちょっとだけ回復したので、ちょっとだけ作業を進める。

やる事

既存モデルとハイスコアkernelのアンサンブル
- あまり詳細拘らず、チョチョイと片付ける。
ハイスコアkernelの理解
- 残った時間でコツコツ進める。

calpis10000 commented 3 years ago

BERT fine-tunedモデルについて

まずは、シンプルなモデルを作ってbaselineとしたい。
- 一番シンプルなモデルを、どこかから探してくる。
- 加えて、local(というか、Colab)で回せる仕組みを構築する。
その後、他のnotebookでやってるいろんな処理をくっつけて試したい。

calpis10000 commented 3 years ago

手作り特徴とのアンサンブルは爆死したので、 BERT系のSingle Modelに集中する。

calpis10000 commented 3 years ago

読んだ。シンプルに分かりやすくまとまっていて、ありがたかった。 https://www.kaggle.com/andretugan/lightweight-roberta-solution-in-pytorch

これをベースにいろんな改修を加えていく。みんなやってそうなやつ → 論文実装的なやつ、の順でやっていきたい。とりあえず、Discussionを漁ればいい感じの知見が得られるかな？

calpis10000 commented 3 years ago

Fine-Tuningに関する記事。 https://www.kaggle.com/rhtsingh/commonlit-readability-prize-roberta-torch-itpt?scriptVersionId=63560998

細かめに読んでいく予定。 torch氏はこの他にも有益そうなnotebookを発表してくれていて、控えめに言ってネ申。

calpis10000 commented 3 years ago

精度評価を、もうちょっと精密にやりたい。

targetの分布(val_target vs val_pred)
rmseの分布(targetがどの程度だと外しやすい？）
ズレの大きい/小さいレコード(モデルが当てやすい/当てにくいレコードはどんなか？ stackingで改善できるか？)

calpis10000 commented 3 years ago

word_lengthで精度が伸びたので、他の特徴も、上手く使えば精度向上につながるのでは。

BoW系（TFIDF, CountVectorizer）: サクッと試せそう。MLPに突っ込めば何らかの特徴が出そう。
- 結局、単語を何らかの表現に変換しているという事なので、BERTのTokenizerとして使用することもできるのでは？
- 今のところ単なる妄想なので、BERTおよびTokenizerについてよりしっかり理解し、可否判断をする必要がある。
NNによる特徴作成（W2Vとか）: 色々調査が必要そう。
- PyTorchでW2Vレイヤーを作成する方法
- 学習済みベクトルの使用方法

calpis10000 commented 3 years ago

単語長は効いたが、TFIDFは全然効かなくてやばい。

本質的に、trainだけでTF-IDFを出しても効かないのだろうか。
- 「train内の単語の重要度」は、「読みやすさ」に対する本質的な説明にはつながらない。
- 単語から抽出すると特徴しては、以下の要素を持っていてほしい。
- 単語それ自体が本質的に持つ特徴（文字数、文字のバリエーション、品詞、あるいはその単語自体のフラグ）
- 今回のデータセットに限らず、より広い範囲のデータから付与される情報（学習済みデータセットに基づくもの）

calpis10000 commented 3 years ago

TFIDFとかカウントとかで色を出すよりは、単純にBag of Wordsで「どの単語があると読みやすい/づらい」を特徴化しても良いのかな。

targetと相関係数の高い/低い単語は見ときたい

calpis10000 commented 3 years ago

（コンペ終了後の感想）実験をissueで管理するようにした事で、過去の実験を思い出す負荷が減り、モチベが下がりにくくなった。これはやって良かった。

ただ、コンペ終了後に振り返ると何やってたか全然わからない作りになってるので、もうちょっと工夫したい。

もっと簡単に、実験管理スレを1つたてて、そこに結果を全部書くようにすれば良いのかな。

calpis10000 commented 3 years ago

MLflowなる仕組みを取り入れたい。 https://future-architect.github.io/articles/20200626/

ただ、いきなり飛躍するとうまくいかないので、中間地点としてできることはやっておきたい。（パラメータをconfigで管理するとか、実行コードを.ipynbじゃなくて.pyで管理するとか）

calpis10000 / commonlit