Filippova, Katja. 2020. “Controlled Hallucinations: Learning to Generate Faithfully from Noisy Data.” In Findings of the Association for Computational Linguistics: EMNLP 2020. Stroudsburg, PA, USA: Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.findings-emnlp.76.
解決したい課題
Data-to-Textにおける、入力データ(表)に含まれない情報が出力テキストに出現するHallcinationsの問題を解決したい。
提案手法
Seq2Seqのアーキテクチャを変えずに、先頭にタグを導入する制約付きデコーディングにより、Hallcinationsの問題に取り組む。 [0, 1]のhallcination scoreに基づき、(0.2刻みで)5パターンのタグを作る。 hallcination scoreの算出方法は以下の通り。
WOで入出力で対応を取る必要が合ったが、LMでは出力だけ使うのであらゆるデータに応用できる。 たとえば、入力が動画や画像の場合にでも使えるかも?
結果
PARENTのRecallが改善した。
人手評価により、faithfulnessの向上を確認。 MFはMostly faithfulを表す。