AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks - Githubissues

nogawanogawa / paper_memo

4 stars 0 forks source link

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks #27

Closed nogawanogawa closed 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/1810.11921

著者

Weiping Song, Chence Shi, Zhiping Xiao, Zhijian Duan, Yewen Xu, Ming Zhang, Jian Tang

会議

CIKM2019

背景

オンライン広告や推薦システムではCTR予測が非常に重要な役割を果たす。この予測には、ユーザーの年齢やインタラクションしたアイテムのid、そのカテゴリなどが使用されるが、これらの特徴量は通常高次元の疎なベクトルになり、容易に過学習を引き起こしてしまう問題がある。

また、これらの特徴を活用して精度の高い予測を行うには、そのドメインの専門家の手作業による高次の交差特徴量に関する特徴量エンジニアリングが必要になるケースが多い。

目的

疎で高次元の特徴量から低次元の密な特徴量を発見し、異なる次数の意味のある組み合わせてモデル化することで、性能の高い推薦を開発する

アプローチ

AutoInt
- Self Attentionを使用した入力特徴から異なる次数の組み合せをモデル化

nogawanogawa commented 2 years ago

背景

オンライン広告や推薦システムではCTR予測が非常に重要な役割を果たす。この予測には、ユーザーの年齢やインタラクションしたアイテムのid、そのカテゴリなどが使用されるが、これらの特徴量は通常高次元の疎なベクトルになる。この状況では容易に過学習を引き起こしてしまう問題がある。

また、これらの特徴を活用して精度の高い予測を行うには、そのドメインの専門家の手作業による高次の交差特徴量に関する特徴量エンジニアリングが必要になるケースが多い。例えば、10歳、男性、ゲームという複数の特徴量の組み合わせは非常に重要な交差特徴量になるが、これらは専門家によってしかわからないことが多い。

nogawanogawa commented 2 years ago

目的

疎で高次元の特徴量から低次元の密な特徴量を発見し、異なる次数の意味のある組み合わせてモデル化することで、性能の高い推薦を開発する

アプローチ

AutoInt
- Self Attentionを使用した入力特徴から異なる次数の組み合せをモデル化

nogawanogawa commented 2 years ago

NNを活用した先行研究の問題点

先行研究で使用されている全結合型ニューラルネットワークは、乗法的な特徴量相互作用の学習において非効率的であることが示されている
これらのモデルは特徴量の相互作用を暗黙的に学習するため，どのような特徴の組み合わせが意味を持つかについての説明が不十分

nogawanogawa commented 2 years ago

AutoInt

AutoIntの概要を下記に示す。

疎な特徴ベクトルxを入力とし、これを低次の密ベクトルに変換する埋め込み層を設ける。次に、denseなベクトルをmulti-head self- attentive neural networkを用いた相互作用層に入力する。

最後の相互作用層の出力は入力特徴の低次元表現であり、これは高次の組み合わせ特徴をモデル化し、さらにシグモイド関数を通してクリックスルー率を推定するために用いられる。

embedding

入力される特徴量には、カテゴリ変数とnumerical変数が混在する。

これらについて、カテゴリ変数について下記のように埋め込みを計算する。

qは、i番目のカテゴリ変数の種類数を表す。

数値的特徴に関しては下記のように埋め込みを計算する。

(x1は3種類のカテゴリを表すone-hot カテゴリ変数を表す。)

interaction layer

下記の式でattention function を計算。

下記の式で出力の計算を行っている。

全体の処理の概要は下記の様になっている。

nogawanogawa commented 2 years ago

評価

評価に使用したデータセットにおいて、AvazuのAUCを除く全てのケースで最も高いスコアを記録している。実行時間も他のモデルと同程度。

モデルパラメータ数は、先行研究より少ないか、同程度で済んでいる。

残差結合はあったほうが良さそう。

層数は3くらいでだいたい安定している。また、埋め込みはKDD12では次元サイズは大きくしたほうが良さそうだが、MovieLens-1Mでは次元サイズ24くらいでピーク。データ数が少ないとオーバーフィットしていると考えられる。

説明性も読み取れる。

暗黙的フィードバックを含めたモデルでも先行研究に比べて高い性能を発揮している。