Less is More for Long Document Summary Evaluation by LLMs

LLMで文章要約モデルを評価する際に、文章と要約を一気に入れて評価するのではなく、まず文章の中から重要文を抽出して、その後、抽出された文章と要約を入れて評価することを提案している。

重要文の抽出方法は、Lead、ROUGE、BERTScore、NLIを使用。基本的には要約に含まれる情報を考慮。プロンプトの形式はG-Evalと同じ。

評価コスト (お金) の上限を設定した"Pareto efficient"の場合の結果を入れてるのはうまい。文章の中間の情報を考慮できていないことをLost-in-the-middleと表現してるあたりもかっこいい。

Kosuke-Yamada / paper-survey