Making the relevance judgments for a TREC-style test collection can be complex and expensive. A typical TREC track usually involves a team of six contractors working for 2-4 weeks. Those contractors need to be trained and monitored. Software has to be written to support recording relevance judgments correctly and efficiently. The recent advent of large language models that produce astoundingly human-like flowing text output in response to a natural language prompt has inspired IR researchers to wonder how those models might be used in the relevance judgment collection process. At the ACM SIGIR 2024 conference, a workshop ``LLM4Eval'' provided a venue for this work, and featured a data challenge activity where participants reproduced TREC deep learning track judgments, as was done by Thomas et al (arXiv:2408.08896, arXiv:2309.10621). I was asked to give a keynote at the workshop, and this paper presents that keynote in article form. The bottom-line-up-front message is, don't use LLMs to create relevance judgments for TREC-style evaluations.
Translation (by gpt-4o-mini)
TRECスタイルのテストコレクションに対する関連性判断を行うことは、複雑で高コストになる可能性があります。典型的なTRECトラックでは、通常6人の契約者チームが2〜4週間働くことになります。これらの契約者は訓練を受け、監視される必要があります。また、関連性判断を正確かつ効率的に記録するためのソフトウェアも作成しなければなりません。最近の大規模言語モデルの登場は、自然言語のプロンプトに対して驚くほど人間らしい流れるようなテキスト出力を生成することから、情報検索(IR)研究者たちに、これらのモデルが関連性判断の収集プロセスでどのように利用できるかを考えさせるきっかけとなりました。ACM SIGIR 2024カンファレンスでは、「LLM4Eval」というワークショップが開催され、この作業のための場を提供し、参加者がTRECの深層学習トラックの判断を再現するデータチャレンジ活動が行われました(Thomas et alによる研究、arXiv:2408.08896、arXiv:2309.10621)。私はこのワークショップで基調講演を行うよう依頼され、この論文はその基調講演を記事形式でまとめたものです。結論として伝えたいメッセージは、TRECスタイルの評価のために関連性判断を作成するためにLLMを使用しないことです。
URL
Affiliations
Abstract
Translation (by gpt-4o-mini)
Summary (by gpt-4o-mini)