Open nogawanogawa opened 1 year ago
LLMは生テキストの教師なし学習→RLHFと2段階で学習されるが、その2段階目に学習データセットは量よりも質が重要であると主張している論文。2段目のアラインはユーザーとの対話のスタイルやフォーマットを学ぶシンプルなプロセスであり、事前訓練中にすでに獲得された知識と能力を以下に引き出せるか、が重要という仮説を立てている。
この論文では1000件の高品質なデータでLLaMa 65Bをファインチューンしたモデルと、GPT4やAlpaca 65Bと比較している。 主張通り、Alpacaのほうが大量にデータでRLHFをしているのにもかかわらず、LLaMAをファインチューンしたモデルのほうが人間、GPT4を用いた評価でどちらも回答が好まれるという結果がでた。
高品質なデータは、WikiHowやStack Exchangeなどのサイトでいいねがたくさんついている回答を利用したり、手作業で作成している。
この論文の結果は注目すべきものだが、注意深くキュレーションされた高品質なデータを用意するのは難しく、スケールアップさせるのは難しいとも述べている。
https://arxiv.org/abs/1812.04407
Xiaoting Zhao, Raphael Louca, Diane Hu, Liangjie Hong
DAPA ’19
オンラインショッピングにおいて、ユーザーは様々な形で商品とインタラクションする。 クリックやお気に入り、カートに入れる、購入など。
この行動次第で、おすすめすべきアイテムは変化すると考えられる。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. https://github.com/wantedly/machine-learning-round-table/issues/195
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!