nogawanogawa / paper_memo

4 stars 0 forks source link

MaskNet: Introducing Feature-Wise Multiplication to CTR Ranking Models by Instance-Guided Mask #85

Closed nogawanogawa closed 1 year ago

nogawanogawa commented 1 year ago

論文URL

https://arxiv.org/abs/2102.07619

著者

Zhiqiang Wang, Qingyun She, Junlin Zhang

会議

DLP-KDD 2021

背景

CTR予測のタスクにおいて、近年ではDNNを使用するモデルが提案されてきている。これらのモデルでは特徴量の相互作用をDNNによって暗黙的に捉えることで性能向上を期待しているが、特徴量の交差を捉えるのに非効率であるとの研究も行われている。実際、注意深く構成された協調フィルタリングを用いたドット積ベースラインがMLP層を大きく上回る結果も報告されている。 MLPは理論上どんな関数も近似できるが、それを実現するには大きな容量と多くのデータが必要になる。

目的

アプローチ

image

ひとことメモ

Twitterのアルゴリズムが公開されたので。 Heavy rankerの内部アルゴリズム。

nogawanogawa commented 1 year ago

背景

CTR予測のタスクにおいて、近年ではDNNを使用するモデルが提案されてきている。これらのモデルでは特徴量の相互作用をDNNによって暗黙的に捉えることで性能向上を期待しているが、特徴量の交差を捉えるのに非効率であるとの研究も行われている。実際、注意深く構成された協調フィルタリングを用いたドット積ベースラインがMLP層を大きく上回る結果も報告されている。 MLPは理論上どんな関数も近似できるが、それを実現するには大きな容量と多くのデータが必要になる。

nogawanogawa commented 1 year ago

目的

アプローチ

nogawanogawa commented 1 year ago

Instance-Guided Mask

推薦に用いるデータは非常に疎になるので、これはEmbeddingに変換する。 カテゴリ、数値をそれぞれembeddingに変換して、それを結合した密なembeddingに変換する。

この状態では、特徴量ごとにembeddingになっている。 ここから、Instance-Guided Maskによって特徴embごとの重要度を推定する。

変換されたembeddingは2層ネットワークに通される。

image

1層目はAggregation, 2層目はProjectionと呼ばれるレイヤになっている。 これは特殊なビット誘導型マスクとみなすことができる。

image

𝑉𝑚𝑎𝑠𝑘の値が大きければ、その特徴量の影響が強くなり、逆に小さければノイズを軽減する効果を期待している。

nogawanogawa commented 1 year ago

MaskBlock

上で書いたInstance-Guided Maskを使用した、MaskBlockを使用してネットワークを構成する。

image

Layer Normalization

Block

Blockの出力を更にBlockの出力に繋げる場合を想定して、2種類用意されている。

nogawanogawa commented 1 year ago

MaskNet

image
nogawanogawa commented 1 year ago

評価

image image