Evaluation of Large Language Models (LLMs) is challenging because aligning tohuman values requires the composition of multiple skills and the required setof skills varies depending on the instruction. Recent studies have evaluatedthe performance of LLMs in two ways, (1) automatic evaluation on severalindependent benchmarks and (2) human or machined-based evaluation giving anoverall score to the response. However, both settings are coarse-grainedevaluations, not considering the nature of user instructions that requireinstance-wise skill composition, which limits the interpretation of the truecapabilities of LLMs. In this paper, we introduce FLASK (Fine-grained LanguageModel Evaluation based on Alignment SKill Sets), a fine-grained evaluationprotocol that can be used for both model-based and human-based evaluation whichdecomposes coarse-level scoring to an instance-wise skill set-level.Specifically, we define 12 fine-grained skills needed for LLMs to followopen-ended user instructions and construct an evaluation set by allocating aset of skills for each instance. Additionally, by annotating the target domainsand difficulty level for each instance, FLASK provides a holistic view with acomprehensive analysis of a model's performance depending on skill, domain, anddifficulty. Through using FLASK, we compare multiple open-sourced andproprietary LLMs and observe highly-correlated findings between model-based andhuman-based evaluations. FLASK enables developers to more accurately measurethe model performance and how it can be improved by analyzing factors that makeLLMs proficient in particular skills. For practitioners, FLASK can be used torecommend suitable models for particular situations through comprehensivecomparison among various LLMs. We release the evaluation data and codeimplementation at https://github.com/kaistAI/FLASK.
Translation (by gpt-3.5-turbo)
大規模言語モデル(LLMs)の評価は困難であり、人間の価値に合わせるためには複数のスキルを組み合わせる必要があり、必要なスキルのセットは指示によって異なる。最近の研究では、LLMsのパフォーマンスを次の2つの方法で評価してきた。(1)複数の独立したベンチマークでの自動評価、(2)応答に対して総合的なスコアを与える人間またはマシンによる評価。しかし、どちらの設定も粗い評価であり、インスタンスごとのスキルの組み合わせを必要とするユーザーの指示の性質を考慮していないため、LLMsの真の能力の解釈を制限している。本論文では、FLASK(Fine-grained Language Model Evaluation based on Alignment SKill Sets)という細かい評価プロトコルを紹介し、モデルベースと人間ベースの評価の両方に使用できるようにする。このプロトコルは、粗いレベルのスコアリングをインスタンスごとのスキルセットレベルに分解する。具体的には、LLMsがオープンエンドのユーザー指示に従うために必要な12の細かいスキルを定義し、各インスタンスに対してスキルのセットを割り当てることで評価セットを構築する。さらに、各インスタンスのターゲットドメインと難易度レベルを注釈付けすることにより、FLASKはスキル、ドメイン、難易度に応じたモデルのパフォーマンスの包括的な分析とともにホリスティックな視点を提供する。FLASKを使用することで、複数のオープンソースおよびプロプライエタリなLLMsを比較し、モデルベースと人間ベースの評価の間に高い相関関係を観察することができる。FLASKは、開発者がモデルのパフォーマンスをより正確に測定し、特定のスキルに優れたLLMsを分析することで改善する方法を理解するのに役立つ。実践者にとっては、FLASKはさまざまなLLMsの包括的な比較を通じて特定の状況に適したモデルを推奨するために使用することができる。評価データとコードの実装はhttps://github.com/kaistAI/FLASKで公開されている。
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
Summary (by gpt-3.5-turbo)