Open AkihikoWatanabe opened 1 year ago
LLMはユーザの好む回答をするように事前学習されるため、prompt中にユーザの意見が含まれていると、ユーザの意見に引っ張られ仮に不正解でもユーザの好む回答をしてしまう問題があることを示した。また、その対策として人工的にユーザの意見と、claimを独立させるように学習するためのデータセットを生成しFinetuningすることで防ぐことができることを示した。
誤ったユーザの意見を挿入すると、正解できていた問題でも不正解になることを示した。
この傾向は、instruction tuningしている場合、モデルサイズが大きい場合により顕著であることを示した。
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
Summary (by gpt-3.5-turbo)