Closed nogawanogawa closed 2 years ago
推薦システムのオフライン評価には、MNAR(Missing Not At Random)なデータを使用する事によるバイアスが発生し、それによって本来不偏であるはずの性能の測定が阻害されている。
例えば、画面のどこにアイテムが表示されていたかによってポジションバイアスが発生したり、ユーザーとアイテムのインタラクションによってフィードバックループによって偏ったアイテムが優先して表示されるようになっていたり、特定のユーザーとアイテムの関係が別のアイテムとの関係に対して影響を与えることもある。
これらは観測したデータセットが、完全な状態のインタラクションデータから偏ってデータが欠けている(MNAR)ことを意味する。
この問題に対するアプローチは大きく3つあって
というアプローチがある。
population biasに対応するために、MNAR (missing not at random) からMAR (missing at random) なテストデータセットを作成する
観測データの欠損に関する分類について確認する。 この論文ではMARとMNARを下記のような定義とは異なる使い方をしている(らしい)ので、そこだけ確認する。
※多分イメージこんな感じ
MARでは、user-itemインタラクションは交錯因子に影響を受けないと仮定している。 Yが必ず得られると仮定するならば、確率分布Pmarは下記のように記述できる。
ここで、ユーザー、アイテムについても独立と考えているため、下記も成立すると考えている。
MNARは交錯因子の影響を受けるため、MARのようにサンプリング分布Pmnarがインタラクション値Yと独立しているとは言えない。
このままではMNARをMARに変換することはできない。
MNARの状況とMARを補正するために、下記のような重み係数を考える。
サンプリング中、この重みの効果は、MNARサンプリング空間におけるユーザーとアイテムの事後確率がMAR分布に対してどれだけ発散しているかに応じて、特定のユーザーとアイテムのペアがサンプリングされる確率を増加または減少させることである。
ここで、(多少雑ではあるが)MAR分布を
のようにして考えることで、簡易的にMAR分布を仮定し、それによって、MNARからMARにサンプリングする際の重み係数を計算し、これを用いてサンプリングする。
上記のデータセットを使用して、ホールド・アウト法を使用して評価することを考える。
MARのデータセットを使用して学習した結果とMNARからサンプリング戦略を使用した介入データセットを使用して学習したときの結果が似ていることを「良い」としている。
スコアが良いのではなく、MARのデータセットを使用したときとサンプリングをしたときで結果が似ているほど優れているものとする。
WTD_H(現実的な提案手法)であっても、他のサンプリング手法と比べてMARのデータセットと比べて誤差が小さくなっているので、良さそうに見える。
論文URL
https://cora.ucc.ie/bitstream/handle/10468/10209/Carraro_Bridge_CORA.pdf?sequence=1&isAllowed=y
著者
Carraro, Diego; Bridge, Derek G.
会議
SAC '20
背景
推薦システムのオフライン評価には、MNAR(Missing Not At Random)なデータを使用する事による一定のバイアスが発生しており、これによって推薦の正しい性能の測定が阻害されている。
一般的なアプローチとして、MNARテストデータで使用するために、新たな超不偏的な性能推定器を設計することであるが、バイアスの影響全てに対応できるわけではない可能性が高く、また、データが特定の前提条件を満たさなければならない場合があり、必ずしも有効とは言えない。
これとは別の方法としてMNARなデータからサンプリング戦略によってMAR(Missing At Random)なテストデータセットを作成することが考えられる。
目的
population biasに対応するために、MNAR (missing not at random) からMAR (missing at random)なテストデータセットを作成する
アプローチ