これは、早稲田大学理工学術院情報理工・情報通信専攻科目「自然言語処理」のグループワークにおいて実装したものです。
OpenAI社よりリリースされているGPT2-mediumを強化学習によってファインチューニングし、インフォーマルな文体で文章を生成するよう調整します。
それぞれ使用します。ただし、ここでは強化学習によってチューニングを行うため、訓練時はデータセットのテキストを全文入力してパラメータを更新するのではなく、データセット(コーパス)の各文の先頭部分を切り出したものを用意してその続きをGPT-2に生成させ、出来上がった文章を報酬モデルによって評価させています。
Hugging Faceのtrlを使用します。🤗Accelerateを使用して複数GPUで訓練を行う場合はhow-to-use-accelerate.md
に従ってください。