Training Language Models to Follow Instructions with Human Feedback - Githubissues

ichiroex / nlp-papers

a brief summary of the papers I read

3 stars 0 forks source link

Training Language Models to Follow Instructions with Human Feedback #18

Open ichiroex opened 1 year ago

ichiroex commented 1 year ago

Ouyang, Long, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, et al. 2022. “Training Language Models to Follow Instructions with Human Feedback.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2203.02155.

解決したい課題

言語モデルにはユーザーの意図とは異なるような偏った意見、攻撃的な内容を生成してしまう問題がある
これまでのtraining objectiveではユーザーによりそった有用性や安全性などを考慮することができていない
人間によるフィードバックに基づいて言語モデルを学習することで、よりユーザーが好みかつ安全なモデルを構築する

提案手法

全体の流れ

本研究で提案するInstructGPTを構築するまでの全体の流れを以下に列挙する。

アノテータの採用　→アノテーションのパフォーマンスに基づくスクリーニングを実施
言語モデル教師データの作成　→ OpenAI APIから収集したPromptログデータまたは別途人手で作成したPromptから人手で理想的な文を作成する
言語モデルの学習　→ Step2で作成した「言語モデル教師データ」を用いて言語モデルを教師あり学習する
報酬モデル教師データの作成　→ 各Promptに対するモデルの生成結果に対してアノテータが評価ラベルを付与する
報酬モデルの学習　→Step 3で作成した「報酬モデル教師データ」を用いて生成文に対する評価値を予測するモデル（報酬モデル）を教師あり学習する
強化学習による言語モデルのファインチューニング　→PPOアルゴリズムに基づいて報酬を最大化する用に言語モデルを追加学習する

結果