hakubishin3 commented 2 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/141

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

Hayashi-Yudai commented 2 years ago

Sequential Recommendation via Stochastic Self-Attention

現状の問題点

Sequential recommendationではself-attentionが成功を収めているが、現状のself-attentionを用いたモデルには限界がある。現状のモデルではユーザーのembeddingは固定されていて、ユーザーの興味の幅に対応しきれない場合がある。例えば、本の購入履歴を考えてみると、

スリラー系→ホラー系→ファンタジー系
科学フィクション→ロマンス→伝記

という２人のユーザーがいるとすると、前者はカテゴリーに強い傾向が見て取れて現状のシステムでもうまくいく。だが、後者では興味が多様でありこのようなユーザーに対しては推薦はあくまで準最適なものになってしまう(users’ uncertaintyの問題)。

もう一つの問題が、collaborative transitivityの問題である。例えば、

item1 → item2
item2 → item3

という２つのトランザクションがあったとする。このトランザクションからはitem1とitem3の関連性が高いことも読み取れる。しかし、現状のself-attentionでは内積を使っているのでこの関係は必ずとも表現できない。(item1=[0,2], item2=[1,1], item3=[2,0]とするとitem1,3の類似度は０)

提案手法

Wasserstein距離を使ったself-attention機構

確率的embedding
- 出力はembeddingの値の分布の平均値と分散
Wasserstein self-attention
- self-attentionではQとKの内積をとっていたが、この部分をQとKのWasserstein距離に置き換える
BPR (Bayesian Personalized Ranking) ロスを改善
- BPRロスでは正例とサンプリングしたアイテム間、負例とサンプリングしたアイテム間のpreference scoreを計算、その差のsigmoidをロスとする。
- BPRロスでは正例と負例の間の距離は考えていない
- ReLU(正例とサンプリングしたアイテムのscore - 正例と負例のscore)をロスとして加える

hakubishin3 commented 2 years ago

CORE: Simple and Effective Session-based Recommendation within Consistent Representation Space

https://arxiv.org/abs/2204.11067 https://github.com/RUCAIBox/CORE

セッションベース推薦において、セッション埋め込みとアイテム埋め込みが同じ埋め込み空間であることを保証させるような学習を行う。具体的にはセッション埋め込みは入力アイテムの埋め込みの線形結合で出力する。この形式を取ることによって生じうるオーバーフィットを防ぐために、アイテム行列に対するDropoutを行ったり、cosine距離や温度パラメータを損失関数に導入している。

nogawanogawa commented 2 years ago

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

論文URL

https://arxiv.org/abs/1810.11921

著者

Weiping Song, Chence Shi, Zhiping Xiao, Zhijian Duan, Yewen Xu, Ming Zhang, Jian Tang

会議

CIKM2019

背景

オンライン広告や推薦システムではCTR予測が非常に重要な役割を果たす。この予測には、ユーザーの年齢やインタラクションしたアイテムのid、そのカテゴリなどが使用されるが、これらの特徴量は通常高次元の疎なベクトルになり、容易に過学習を引き起こしてしまう問題がある。

また、これらの特徴を活用して精度の高い予測を行うには、そのドメインの専門家の手作業による高次の交差特徴量に関する特徴量エンジニアリングが必要になるケースが多い。

目的

疎で高次元の特徴量から低次元の密な特徴量を発見し、異なる次数の意味のある組み合わせてモデル化することで、性能の高い推薦を開発する

アプローチ

AutoInt
- Self Attentionを使用した入力特徴から異なる次数の組み合せをモデル化

memo

https://github.com/nogawanogawa/paper_memo/issues/27

zerebom commented 2 years ago

Two-phase training mitigates class imbalance for camera trap image classification with CNNs

カメラトラップ画像のクラス分類をしたいが、データセットがinbalanceで少数の多数クラスに対して、高い精度が出せない
2段階で学習することで、多数派クラスの精度を落とさず、少数派クラスの精度向上ができた
- 1段階目: サンプリングしたデータセットで学習
- 2段階目: 最終層以外の重みを固定し、元のデータセットで学習
オーバーサンプリング・アンダーサンプリングを併用することで精度向上した

補足

カメラトラップ画像: 自然環境に置きっぱなしにしたカメラが撮影する画像

wantedly / machine-learning-round-table

[2022/05/12]Machine Learning 輪講 #142

Why