wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2021/06/10]Machine Learning 輪講 #103

Open hakubishin3 opened 3 years ago

hakubishin3 commented 3 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #101

What

話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!

hakubishin3 commented 3 years ago

Calibrated recommendations

https://dl.acm.org/doi/10.1145/3240323.3240372

ユーザの過去の興味分野に対するインタラクションの割合を推薦にも反映するという話. 例えば, 7 割ロマンス映画見ていて残り 3 割がアクション映画を見ている嗜好性ならば, その割合がユーザの興味関心度合いの重みであり, その割合に近いかたちで推薦するようにランキングを後処理でリランク(キャリブレーション)する.

通常のオフラインでのランキング評価指標に最適化された結果はユーザの特定の関心分野にフォーカスしやすく(全体最適なのでちょっとの嗜好度合いのものを無視するのが最適になっちゃう), 時間経過とともにユーザの興味を狭める懸念がある. なのでキャリブレーションが重要. 推薦モデルがポイントワイズやペアワイズでの学習の場合は後処理で対応する必要がある.

ユーザの視聴履歴から成り立つジャンル分布 p と推薦結果のジャンル分布 q を KL divergence で評価 (完全なキャリブレーションの場合は KL div は 0 となるし, p が小さい場合の q との小さい差異に敏感に反応してくれるからいいよね) accuracy とのトレードオフになるのでこの calibration metric を活用していい感じのところを探す (貪欲法).

スクリーンショット 2021-06-10 15 40 55

精度をある程度担保しつつ, ユーザの嗜好に応じた推薦ができている.

スクリーンショット 2021-06-10 16 20 07

Class-Balanced Loss Based on Effective Number of Samples

https://openaccess.thecvf.com/content_CVPR_2019/papers/Cui_Class-Balanced_Loss_Based_on_Effective_Number_of_Samples_CVPR_2019_paper.pdf

longtail な分布を持つ不均衡データに対して,クラス毎の有効データ数の逆数で損失を重み付けする手法を提案している.

ナイーブにやるならクラス毎のサンプルサイズの逆数で重み付けするが, 同じクラスの中でも似たようなサンプルが多数含まれているケースもあり得て, この場合だと大量データを持つクラスが過小評価されやすくなる. 単純にサンプルサイズの逆数で重み付けするよりもそのクラスのサンプル集合の特徴空間内での体積(という表現使ってる, サンプル間のoverlapを考慮しどのぐらいの特徴空間内での領域の広がりを持っているのかを表す)でバランス取ったほうが良いんじゃない?という考え方.

有効データ数はハイパラ β とクラス毎のデータ数 n で算出. あとはこれで重み付けするだけ.

スクリーンショット 2021-06-10 14 47 16

β は頑張って探索する必要があるみたいで, 以下の範囲を探索していた.

スクリーンショット 2021-06-10 14 48 45

クラス毎で最適な β が違いそうだけど, β は各クラスで一律

zerebom commented 3 years ago

Lessons Learned Addressing Dataset Bias in Model-Based Candidate Generation at Twitter

https://irsworkshop.github.io/2020/publications/paper_2_%20Virani_Twitter.pdf

KDD2020-workshopのTwitter社の論文。ZOZOさんの勉強会でも取り上げられていた。

2段階の推薦モデル(two-tower networks)の学習を行う際に、1段目の学習対象を取得(Candidate Generation = CG)時に生じるデータセットバイアスに対策して、2段目の推薦の精度を向上させた。

アイテムの種類

要点

Biasに対する考察

Two-Tower networksの学習に対する考察

モデル

Query embとCandidate embの類似度をそのまま、Engage確率として出力している(? Embedding Layerも一緒に逆伝搬で学習している(? image

結果