tma15 / paper-reading-list

3 stars 0 forks source link

Fine-tuning Language Models for Factuality #212

Open tma15 opened 11 months ago

tma15 commented 11 months ago

https://arxiv.org/pdf/2311.08401.pdf

概要

人手によるラベル付けなしに、事実性に対する選好データを自動で用意。Direct Preference Optimizationを使ってLLMを学習。事実性に対する選好データを作成するために、Wikipediaを使ってより事実を含んでいそうな度合いを使う方法と、モデルの信頼度を使う方法を試した。

Wikipediaを使った信頼性の推定

モデルの信頼度を使った推定