Lessons Learned Addressing Dataset Bias in Model-Based Candidate Generation at Twitter

https://irsworkshop.github.io/2020/publications/paper_2_%20Virani_Twitter.pdf

KDD2020-workshopのTwitter社の論文。ZOZOさんの勉強会でも取り上げられていた。

2段階の推薦モデル(two-tower networks)の学習を行う際に、1段目の学習対象を取得(Candidate Generation = CG)時に生じるデータセットバイアスに対策して、2段目の推薦の精度を向上させた。

要点

Biasに対する考察

CGでデータを絞るほど、ValidateとTestで乖離が起きる
INSをCGに加えると乖離が防げる
Deep Triplet Lossを用いると、INSの目的変数=0という仮定を置かなくてよい

Two-Tower networksの学習に対する考察

Negative: RSで学習→ Negative: ENSでFine-tuneするともっと精度が高い
- RSで学習: ユーザーにとって興味ある話題・言語は何かをざっくりと判定
- ENSで学習: ユーザーにとって興味ある話題の中でどのアイテムがエンゲージするかどうか緻密に判定

アイテムの種類

Random Sample(RS): ユーザーに提供していないアイテム(言語,興味が一致しない殆どのアイテム)
Explicit Negative Sample(ENS): ユーザーに提供し、明示的にこれはNegativeと判定したアイテム
Inplicit Negative Sample(INS): ユーザーに提供したけど、Positiveと判定されなかったアイテム

モデル

Query embとCandidate embの類似度をそのまま、Engage確率として出力している(? Embedding Layerも一緒に逆伝搬で学習している(?

結果

INSだけで学習すると、オフライン(=CGから提供されたデータ内)でのAUCは高いが、オンラインで出せないほどだめ
RSだけで学習すると、オフラインもオンラインも低い
Fine-tuneをすると、オンラインのエンゲージ率が上がった

その他

Deep Triplet Loss

INSを増やすかつ、INSの目的変数=0として扱うとモデルの学習が難しくなる(0の割合が増えるから) その対策としてDeep Triplet Lossを利用する Query-Negative間がQuery-Positive間よりもユークリッド距離が大きくなるように、繰り返し最適化していく。これを使うことで、INSの目的変数を0と置く必要がなくなる https://qiita.com/tancoro/items/35d0925de74f21bfff14

Popularity Correction

人気なアイテムの出現頻度を絞る。頻度を絞るほど、様々なアイテムが提供されるが、AUCが下がる。ユーザー体験を損なわない程度に様々なアイテムを出すにはどうすればよいか、閾値を探した。

zerebom / paper-books