nogawanogawa commented 1 year ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/195

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

zerebom commented 1 year ago

LIMA: Less Is More for Alignment

LLMは生テキストの教師なし学習→RLHFと2段階で学習されるが、その2段階目に学習データセットは量よりも質が重要であると主張している論文。２段目のアラインはユーザーとの対話のスタイルやフォーマットを学ぶシンプルなプロセスであり、事前訓練中にすでに獲得された知識と能力を以下に引き出せるか、が重要という仮説を立てている。

この論文では1000件の高品質なデータでLLaMa 65Bをファインチューンしたモデルと、GPT4やAlpaca 65Bと比較している。主張通り、Alpacaのほうが大量にデータでRLHFをしているのにもかかわらず、LLaMAをファインチューンしたモデルのほうが人間、GPT4を用いた評価でどちらも回答が好まれるという結果がでた。

高品質なデータは、WikiHowやStack Exchangeなどのサイトでいいねがたくさんついている回答を利用したり、手作業で作成している。

この論文の結果は注目すべきものだが、注意深くキュレーションされた高品質なデータを用意するのは難しく、スケールアップさせるのは難しいとも述べている。

nogawanogawa commented 1 year ago

Learning Item-Interaction Embeddings for User Recommendations

論文URL

https://arxiv.org/abs/1812.04407

著者

Xiaoting Zhao, Raphael Louca, Diane Hu, Liangjie Hong

会議

DAPA ’19

背景

オンラインショッピングにおいて、ユーザーは様々な形で商品とインタラクションする。クリックやお気に入り、カートに入れる、購入など。

この行動次第で、おすすめすべきアイテムは変化すると考えられる。

目的

ユーザーとアイテムのインタラクションの種類を考慮して、文脈を考慮した推薦を行う

アプローチ

ユーザーとアイテムのインタラクションの種類ごとの共起パターンを符号化・embeddingする
- インタラクションの種類ごとにembeddingを定義する事で、ユーザーの行動に応じて推薦するアイテムを切り替える

memo

https://github.com/nogawanogawa/paper_memo/issues/83

wantedly / machine-learning-round-table

[2023/05/24]Machine Learning 輪講 #197

Why