WizardLM: Empowering Large Language Models to Follow Complex Instructions, Xu+, Microsoft/Peking University, arXiv'23

AkihikoWatanabe commented 1 year ago

instruction trainingは大きな成功を収めているが、人間がそれらのデータを作成するのはコストがかかる。また、そもそも複雑なinstructionを人間が作成するのは苦労する。そこで、LLMに自動的に作成させる手法を提案している（これはself instructと一緒）。データを生成する際は、seed setから始め、step by stepでinstructionをrewriteし、より複雑なinstructionとなるようにしていく。これらの多段的な複雑度を持つinstructionをLLaMaベースのモデルに食わせてfinetuningした（これをWizardLMと呼ぶ）。人手評価の結果、WizardLMがChatGPTよりも好ましいレスポンスをすることを示した。特に、WizaraLMはコード生成や、数値計算といった難しいタスクで改善を示しており、複雑なinstructionを学習に利用することの重要性を示唆している。

AkihikoWatanabe commented 1 year ago

EvolInstructを提案。"1+1=?"といったシンプルなinstructionからスタートし、これをLLMを利用して段階的にcomplexにしていく。complexにする方法は2通り：

In-Depth Evolving: instructionを5種類のoperationで深掘りする（blue direction line）
- add constraints
- deepening
- concretizing
- increase reasoning steps
- complicate input
In-breadth Evolving: givenなinstructionから新しいinstructionを生成する

上記のEvolvingは特定のpromptを与えることで実行される。また、LLMはEvolvingに失敗することがあるので、Elimination Evolvingと呼ばれるフィルタを利用してスクリーニングした。フィルタリングでは4種類の失敗するsituationを想定し、1つではLLMを利用。2枚目画像のようなinstructionでフィルタリング。

instructionの情報量が増えていない場合。
instructionがLLMによって応答困難な場合（短すぎる場合やsorryと言っている場合）
puctuationやstop wordsによってのみ構成されている場合 4.明らかにpromptの中から単語をコピーしただけのinstruction（given prompt, rewritten prompt, #Rewritten Prompt#など）

AkihikoWatanabe / paper_notes

WizardLM: Empowering Large Language Models to Follow Complex Instructions, Xu+, Microsoft/Peking University, arXiv'23 #533