wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2023/06/21]Machine Learning 輪講 #200

Open nogawanogawa opened 1 year ago

nogawanogawa commented 1 year ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/197

What

話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!

Hayashi-Yudai commented 1 year ago

Debiased Offline Evaluation of Recommender Systems: A Weighted-Sampling Approach

推薦システムの評価をするときに、データにバイアスがあるとモデルの性能を正確に測ることができないという課題をデータ品質側から解決しようとした論文。ここでフォーカスしているバイアスは、「データ欠損の非ランダム性」。例えばECサイトでいうと人気アイテムにはユーザは良くインタラクションするが、そうではないアイテムにはあまりインタラクションしないのでアイテムの人気度でデータセットの欠損パターンにバイアスがかかる。

この論文では、データセット全体から評価に使うデータセットをサンプリングする方法について提案している。

image

アイデア自体は非常にシンプルで、理想的な状態(MAR; Missing At Random)よりもあるユーザ or アイテムがサンプリングされにくい状態(MNAR; Missing Not At Random)になっていればウェイトを掛けてサンプリング確率を上げる、逆なら下げるということをしている。

MARとMNARデータが両方あるデータセットを使って提案手法(WTD, WTD_H)を評価。評価値がMARでの値(Y^gt)とどれだけ乖離するかまとめている(Recall@10)。

image
hakubishin3 commented 1 year ago

A First Look at LLM-Powered Generative News Recommendation

大規模言語モデルのセマンティック知識を活用するニュース推薦用のフレームワーク GENRE を提案。

このフレームワークはプロンプトデザインが肝となっており、LLMによるデータ生成・更新を反復的に行って品質の高いデータを生成し、ニュース推薦モデルの性能を向上させる。

スクリーンショット 2023-06-21 17 29 22

使い方の例

スクリーンショット 2023-06-21 17 33 36
nogawanogawa commented 1 year ago

Improving Content Retrievability in Search with Controllable Query Generation

論文URL

https://arxiv.org/abs/2303.11648

著者

Gustavo Penha, Enrico Palumbo, Maryam Aziz, Alice Wang, Hugues Bouchard

会議

World Wide Web Conference 2023

背景

特定のアイテムを見つけたいというケースとは対称的に、探索的にアイテムを検索したいことがある。 しかし、検索ではクエリは特定の特定のアイテムを上位に表示してしまう傾向があり、検索バイアスがかかってしまう。

目的

アプローチ

image

memo

https://github.com/nogawanogawa/paper_memo/issues/90