Open tma15 opened 11 months ago
https://arxiv.org/pdf/2311.08401.pdf
人手によるラベル付けなしに、事実性に対する選好データを自動で用意。Direct Preference Optimizationを使ってLLMを学習。事実性に対する選好データを作成するために、Wikipediaを使ってより事実を含んでいそうな度合いを使う方法と、モデルの信頼度を使う方法を試した。
https://arxiv.org/pdf/2311.08401.pdf
概要
人手によるラベル付けなしに、事実性に対する選好データを自動で用意。Direct Preference Optimizationを使ってLLMを学習。事実性に対する選好データを作成するために、Wikipediaを使ってより事実を含んでいそうな度合いを使う方法と、モデルの信頼度を使う方法を試した。
Wikipediaを使った信頼性の推定
モデルの信頼度を使った推定