Open hakubishin3 opened 2 years ago
Sequential recommendationではself-attentionが成功を収めているが、現状のself-attentionを用いたモデルには限界がある。現状のモデルではユーザーのembeddingは固定されていて、ユーザーの興味の幅に対応しきれない場合がある。例えば、本の購入履歴を考えてみると、
という2人のユーザーがいるとすると、前者はカテゴリーに強い傾向が見て取れて現状のシステムでもうまくいく。だが、後者では興味が多様でありこのようなユーザーに対しては推薦はあくまで準最適なものになってしまう(users’ uncertaintyの問題)。
もう一つの問題が、collaborative transitivityの問題である。例えば、
という2つのトランザクションがあったとする。このトランザクションからはitem1とitem3の関連性が高いことも読み取れる。しかし、現状のself-attentionでは内積を使っているのでこの関係は必ずとも表現できない。(item1=[0,2], item2=[1,1], item3=[2,0]とするとitem1,3の類似度は0)
Wasserstein距離を使ったself-attention機構
https://arxiv.org/abs/2204.11067 https://github.com/RUCAIBox/CORE
セッションベース推薦において、セッション埋め込みとアイテム埋め込みが同じ埋め込み空間であることを保証させるような学習を行う。具体的にはセッション埋め込みは入力アイテムの埋め込みの線形結合で出力する。この形式を取ることによって生じうるオーバーフィットを防ぐために、アイテム行列に対するDropoutを行ったり、cosine距離や温度パラメータを損失関数に導入している。
https://arxiv.org/abs/1810.11921
Weiping Song, Chence Shi, Zhiping Xiao, Zhijian Duan, Yewen Xu, Ming Zhang, Jian Tang
CIKM2019
オンライン広告や推薦システムではCTR予測が非常に重要な役割を果たす。 この予測には、ユーザーの年齢やインタラクションしたアイテムのid、そのカテゴリなどが使用されるが、これらの特徴量は通常高次元の疎なベクトルになり、容易に過学習を引き起こしてしまう問題がある。
また、これらの特徴を活用して精度の高い予測を行うには、そのドメインの専門家の手作業による高次の交差特徴量に関する特徴量エンジニアリングが必要になるケースが多い。
疎で高次元の特徴量から低次元の密な特徴量を発見し、異なる次数の意味のある組み合わせてモデル化することで、性能の高い推薦を開発する
補足
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. https://github.com/wantedly/machine-learning-round-table/issues/141
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!