AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
16 stars 0 forks source link

Self-Alignment with Instruction Backtranslation, Xian Li+, N/A, arXiv'23 #1008

Open AkihikoWatanabe opened 1 year ago

AkihikoWatanabe commented 1 year ago

URL

AkihikoWatanabe commented 1 year ago

人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。 これにより高品質なinstruction following LLMの構築が可能

AkihikoWatanabe commented 1 year ago

手法概要

image

AkihikoWatanabe commented 1 year ago

結果的に得られるデータは、訓練において非常にインパクトがあり高品質なものとなる。 実際に、他の同サイズのinstruct tuningデータセットを上回る。 image

AkihikoWatanabe commented 1 year ago

Humpackは他のstrong modelからdistillされていないモデルの中で最高性能を達成。これは、スケールアップしたり、より強いベースモデルを使うなどさらなる性能向上ができる余地が残されている。 image

AkihikoWatanabe commented 1 year ago

参考: https://x.com/hillbig/status/1694103441432580377?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

指示を予測するモデルは、今回はLLaMAをfinetuningしたモデルを用いており、予測と呼称しているが指示はgenerationされる。