Closed t0d4 closed 1 year ago
そこで、インフォーマルなデータも含まれるデータセットを使うことを考え、
を使ってRLしてみる。
結果はweights & biasesにて管理。 https://wandb.ai/t0d4/informal-gpt?workspace=user-t0d4
3 で述べたとおり、Wikipediaのデータセットで訓練されたモデルはインフォーマルな文章に出会うこと自体が少ないので、インフォーマルな文章の特性として間違ったものを捉えている傾向がある(例えばやたら短い文章ばかり生成されるなど)
そこで、インフォーマルなデータも含まれるデータセットを使うことを考え、
を使ってRLしてみる。