Open AkihikoWatanabe opened 1 year ago
人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。 これにより高品質なinstruction following LLMの構築が可能
手法概要
結果的に得られるデータは、訓練において非常にインパクトがあり高品質なものとなる。 実際に、他の同サイズのinstruct tuningデータセットを上回る。
Humpackは他のstrong modelからdistillされていないモデルの中で最高性能を達成。これは、スケールアップしたり、より強いベースモデルを使うなどさらなる性能向上ができる余地が残されている。
参考: https://x.com/hillbig/status/1694103441432580377?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
指示を予測するモデルは、今回はLLaMAをfinetuningしたモデルを用いており、予測と呼称しているが指示はgenerationされる。
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
Summary (by gpt-3.5-turbo)