AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
15 stars 0 forks source link

WizardLM: Empowering Large Language Models to Follow Complex Instructions, Xu+, Microsoft/Peking University, arXiv'23 #533

Open AkihikoWatanabe opened 1 year ago

AkihikoWatanabe commented 1 year ago

https://arxiv.org/abs/2304.12244

AkihikoWatanabe commented 1 year ago

instruction trainingは大きな成功を収めているが、人間がそれらのデータを作成するのはコストがかかる。また、そもそも複雑なinstructionを人間が作成するのは苦労する。そこで、LLMに自動的に作成させる手法を提案している(これはself instructと一緒)。データを生成する際は、seed setから始め、step by stepでinstructionをrewriteし、より複雑なinstructionとなるようにしていく。 これらの多段的な複雑度を持つinstructionをLLaMaベースのモデルに食わせてfinetuningした(これをWizardLMと呼ぶ)。人手評価の結果、WizardLMがChatGPTよりも好ましいレスポンスをすることを示した。特に、WizaraLMはコード生成や、数値計算といった難しいタスクで改善を示しており、複雑なinstructionを学習に利用することの重要性を示唆している。

AkihikoWatanabe commented 1 year ago

EvolInstructを提案。"1+1=?"といったシンプルなinstructionからスタートし、これをLLMを利用して段階的にcomplexにしていく。complexにする方法は2通り:

上記のEvolvingは特定のpromptを与えることで実行される。 また、LLMはEvolvingに失敗することがあるので、Elimination Evolvingと呼ばれるフィルタを利用してスクリーニングした。 フィルタリングでは4種類の失敗するsituationを想定し、1つではLLMを利用。2枚目画像のようなinstructionでフィルタリング。

  1. instructionの情報量が増えていない場合。
  2. instructionがLLMによって応答困難な場合(短すぎる場合やsorryと言っている場合)
  3. puctuationやstop wordsによってのみ構成されている場合 4.明らかにpromptの中から単語をコピーしただけのinstruction(given prompt, rewritten prompt, #Rewritten Prompt#など) image image