Open AkihikoWatanabe opened 1 month ago
cross-lingualでinstruction tuningをする手法。target言語のInstructionが与えられたときに、Pivotとなる言語でInstructionとResponseを生成した後、targetとなる言語に翻訳するようなデータ(それぞれをseparatorを用いてconcatする)でInstruction Tuningすることでtarget言語での性能が向上
ゼロショットのOpen-end GenerationタスクでInstruction Tuningされたモデルが評価されるが、既存のマルチリンガルの評価セットはサンプル数が小さく、機械翻訳ベースのものはノイジーという課題がある。このため、著者らは評価する4言語(low-resource language)のプロの翻訳家を雇用し、AlpacaEvalを翻訳し、4言語(Chinese, Korean, Italian, Spanish)のinstructionが存在するパラレルコーパス X-AlpacaEvalを作成し評価データとして用いる。
利用するFoundationモデルは以下の3種類で、
これらに対して学習データとしてGPT4-Alpaca #1401 instruction-tuning dataset (52kのインストラクションが存在) を利用する。GPT4-AlpacaをChatGPTによって4言語に翻訳し、各言語に対するinstruction tuning datasetを得た。
比較手法として以下の5種類と比較している。ここでターゲット言語は今回4種類で、それぞれターゲット言語ごとに独立にモデルを学習している。
評価する際は、MT-Bench #903 のように、GPT4を用いた、direct pair-wise comparisonを行っている。 direct pair-wise comparisonは、2つのサンプルを与えてLLMに何らかの判断やスコアリングをさせる方法であり、今回はどちらがinstructionにより従っているかに勝敗/引き分けをGPT4に判断させている。LLMによる生成はサンプルの順番にsensitiveなので、順番を逆にした場合でも実験をして、win-lose rateを求めている。1つのサンプルペアに対して、サンプルの順番を正順と逆順の2回評価させ、その双方の結果を用いて最終的なwin/lose/tieを決めている。端的に言うと、勝敗が2-0ならそのサンプルの勝ち、同様に1-1なら引き分け、0-2なら負け、ということである。
URL
Affiliations
Abstract
Translation (by gpt-4o-mini)
Summary (by gpt-4o-mini)