nogawanogawa commented 1 year ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/197

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

Hayashi-Yudai commented 1 year ago

Debiased Offline Evaluation of Recommender Systems: A Weighted-Sampling Approach

推薦システムの評価をするときに、データにバイアスがあるとモデルの性能を正確に測ることができないという課題をデータ品質側から解決しようとした論文。ここでフォーカスしているバイアスは、「データ欠損の非ランダム性」。例えばECサイトでいうと人気アイテムにはユーザは良くインタラクションするが、そうではないアイテムにはあまりインタラクションしないのでアイテムの人気度でデータセットの欠損パターンにバイアスがかかる。

この論文では、データセット全体から評価に使うデータセットをサンプリングする方法について提案している。

アイデア自体は非常にシンプルで、理想的な状態(MAR; Missing At Random)よりもあるユーザ or アイテムがサンプリングされにくい状態(MNAR; Missing Not At Random)になっていればウェイトを掛けてサンプリング確率を上げる、逆なら下げるということをしている。

MARとMNARデータが両方あるデータセットを使って提案手法(WTD, WTD_H)を評価。評価値がMARでの値(Y^gt)とどれだけ乖離するかまとめている(Recall@10)。

バイアスが掛かった状態のデータを使うと、モデルが特定のセグメントについて良く学習していてそれを拾ってきてしまい性能が過剰評価されている(FULL, REG)。
アイテムの人気度でウェイトを掛けるSKEWと比べて、より包括的にバイアスを扱える提案手法のほうがモデルの性能をより正確に評価できている

hakubishin3 commented 1 year ago

A First Look at LLM-Powered Generative News Recommendation

大規模言語モデルのセマンティック知識を活用するニュース推薦用のフレームワーク GENRE を提案。

このフレームワークはプロンプトデザインが肝となっており、LLMによるデータ生成・更新を反復的に行って品質の高いデータを生成し、ニュース推薦モデルの性能を向上させる。

使い方の例

LLM as News Summarizer
- ニュースのタイトル、アブストラクト、カテゴリーを入力として与えることで、大規模言語モデルでより情報量の多いニュースのタイトルを出力として生成、強化されたコンテンツの特徴として使う
LLM as User Profiler
- ユーザープロファイルモデリングのためのプロンプトを設計する。ユーザの履歴が与えられると、大規模言語モデルは、そのユーザが興味を持っているトピックと地域を含むユーザープロファイルを作成する。要約されたユーザープロファイルは interest vector として扱う
LLM as Personalized News Generator
- ユーザーが興味を持つ可能性のあるニュースを生成してユーザーの履歴を強化することで、ユーザーエンコーダに効果的なユーザー表現を学習させる

nogawanogawa commented 1 year ago

Improving Content Retrievability in Search with Controllable Query Generation

論文URL

https://arxiv.org/abs/2303.11648

著者

Gustavo Penha, Enrico Palumbo, Maryam Aziz, Alice Wang, Hugues Bouchard

会議

World Wide Web Conference 2023

背景

特定のアイテムを見つけたいというケースとは対称的に、探索的にアイテムを検索したいことがある。しかし、検索ではクエリは特定の特定のアイテムを上位に表示してしまう傾向があり、検索バイアスがかかってしまう。

目的

探索的検索に対応する

アプローチ

CtrlQGen
- クエリを裏で生成する
- 生成したクエリを使用してRankerを調整したり、query suggestionで検索可能性を向上させる

memo

https://github.com/nogawanogawa/paper_memo/issues/90

wantedly / machine-learning-round-table

[2023/06/21]Machine Learning 輪講 #200

Why