Closed nogawanogawa closed 2 years ago
オンライン広告や推薦システムではCTR予測が非常に重要な役割を果たす。 この予測には、ユーザーの年齢やインタラクションしたアイテムのid、そのカテゴリなどが使用されるが、これらの特徴量は通常高次元の疎なベクトルになる。この状況では容易に過学習を引き起こしてしまう問題がある。
また、これらの特徴を活用して精度の高い予測を行うには、そのドメインの専門家の手作業による高次の交差特徴量に関する特徴量エンジニアリングが必要になるケースが多い。例えば、10歳、男性、ゲームという複数の特徴量の組み合わせは非常に重要な交差特徴量になるが、これらは専門家によってしかわからないことが多い。
疎で高次元の特徴量から低次元の密な特徴量を発見し、異なる次数の意味のある組み合わせてモデル化することで、性能の高い推薦を開発する
AutoIntの概要を下記に示す。
疎な特徴ベクトルxを入力とし、これを低次の密ベクトルに変換する埋め込み層を設ける。 次に、denseなベクトルをmulti-head self- attentive neural networkを用いた相互作用層に入力する。
最後の相互作用層の出力は入力特徴の低次元表現であり、これは高次の組み合わせ特徴をモデル化し、さらにシグモイド関数を通してクリックスルー率を推定するために用いられる。
入力される特徴量には、カテゴリ変数とnumerical変数が混在する。
これらについて、カテゴリ変数について下記のように埋め込みを計算する。
qは、i番目のカテゴリ変数の種類数を表す。
数値的特徴に関しては下記のように埋め込みを計算する。
(x1は3種類のカテゴリを表すone-hot カテゴリ変数を表す。)
下記の式でattention function を計算。
下記の式で出力の計算を行っている。
全体の処理の概要は下記の様になっている。
評価に使用したデータセットにおいて、AvazuのAUCを除く全てのケースで最も高いスコアを記録している。 実行時間も他のモデルと同程度。
モデルパラメータ数は、先行研究より少ないか、同程度で済んでいる。
残差結合はあったほうが良さそう。
層数は3くらいでだいたい安定している。 また、埋め込みはKDD12では次元サイズは大きくしたほうが良さそうだが、MovieLens-1Mでは次元サイズ24くらいでピーク。 データ数が少ないとオーバーフィットしていると考えられる。
説明性も読み取れる。
暗黙的フィードバックを含めたモデルでも先行研究に比べて高い性能を発揮している。
論文URL
https://arxiv.org/abs/1810.11921
著者
Weiping Song, Chence Shi, Zhiping Xiao, Zhijian Duan, Yewen Xu, Ming Zhang, Jian Tang
会議
CIKM2019
背景
オンライン広告や推薦システムではCTR予測が非常に重要な役割を果たす。 この予測には、ユーザーの年齢やインタラクションしたアイテムのid、そのカテゴリなどが使用されるが、これらの特徴量は通常高次元の疎なベクトルになり、容易に過学習を引き起こしてしまう問題がある。
また、これらの特徴を活用して精度の高い予測を行うには、そのドメインの専門家の手作業による高次の交差特徴量に関する特徴量エンジニアリングが必要になるケースが多い。
目的
疎で高次元の特徴量から低次元の密な特徴量を発見し、異なる次数の意味のある組み合わせてモデル化することで、性能の高い推薦を開発する
アプローチ