On Sampled Metrics for Item Recommendation

KDD 2020の論文 https://dl.acm.org/doi/pdf/10.1145/3394486.3403226

Abstract

多くの推薦タスクでは、計算量削減のためにNegative sampling(NS)が用いられている
NSを行うと多くの評価関数にて、バイアスが生み出される
どのようにバイアスが生まれるのかを詳細に実験した
また、バイアスの修正方法も提案

問題設計

まず簡単に、各評価関数の性質を紹介する。

ある1ユーザに、1つのrelevant item, 9999個のirrelevant item がある時、relvent itemの順位を横軸、評価関数の値を縦軸に取った図

AUC以外の評価関数は、relevant itemの順位に対して線形以上に強く減衰する。基本的にユーザは上位アイテムしか見ないので、この傾向は望ましいものと言える。

Inconsistency of Sampled Metrics

次に、データセットに、5つのrelevant item, 9995個のirrelevant itemがある状態について考える。 Recommender A,B,Cがrelevant itemの順位を出力した時、各評価関数の評価値の値をtable 1に示す。

次に5つのrelevant itemと9995個から 995個にランダムにNegative samplingし、各評価関数の評価値の値をtable 2に示す。 (ランダムサンプリングを1000回行い、その時の平均値と標準偏差を表している) AUC以外、もっとも評価値の高いRecommenderが変化している(C→A)

また、Negative Samplingの数を変えたときの、各Recommenderの評価値を評価関数ごとに示す。 AUC以外、Negative Samplingの程度によって、順序関係が入れ替わることがわかる

CORRECTED METRICS

[WIP...] (難しかった...でもきっと面白い...)

参考資料

https://www.so-netmedia.jp/techblog/introduction-on-sampled-metrics-for-item-recommendation/

zerebom / paper-books