nogawanogawa commented 1 year ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/170

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

nogawanogawa commented 1 year ago

Embarrassingly Shallow Autoencoders for Sparse Data

論文URL

https://arxiv.org/abs/1905.03375

著者

Harald Steck

会議

WWW'19

背景

協調フィルタリングに関する近年の改良の多くは、DNNアプローチをもとにしたものである。ただし、コンピュータビジョンのような分野とは異なり、推薦では少数の隠れ層で高い精度を達成することがわかった。

この事実を極端にして、隠れ層を持たない線形モデルを定義することで、高い精度を達成できる見込みがある。

目的

推薦の暗黙的フィードバックデータに適した線形モデルを定義する

アプローチ

Embarrassingly Shallow AutoEncoder (EASE)
- auto encoder と　近傍アプローチの組み合わせ
- アイテム-アイテム weight matrix（B）を評価値行列の内積でscore推定値が得られるものと考える
- Bの対角成分は0
- 隠れ層が無いので、計算が非常に高速

memo

https://github.com/nogawanogawa/paper_memo/issues/64

解説記事： http://kayoblo.com/?p=186 実装:https://github.com/Darel13712/ease_rec

Hayashi-Yudai commented 1 year ago

MetaKRec: Collaborative Meta-Knowledge Enhanced Recommender System

Knowledge-graphを利用した推薦システム

素のKnowledge-graphに対して5通りの手法を用いてグラフを圧縮しスパース性を緩和した。4種類のデータセットに対してRecall, NDCGが最も良い性能を出している。

面白いとおもったのは、メタグラフ作成後のGCN層（一番上の図のLight Graph Convolution と書いてある部分）の数と性能の関係性。

層を増やすと性能が単調に減少するという結果が得られている。これはKnowledge-graphだけである程度よいグラフ構造ができていて、GCN層を増やすと逆にノード間の関係性が "over-smoothing" されて性能が劣化すると解釈されている。

zerebom commented 1 year ago

A Systematic Review and Replicability Study of BERT4Rec for Sequential Recommendation

Recsys2022の論文。Bert4Recの再現性を検証するために、たくさん実験した論文。370本の論文をサーベイしている。

どうやって実験した?

Original, RecBole, Bert4Rec-VAE, Hugging Faceの4つで実装した。GitHubにHuggingFaceの実装が乗っている。 https://github.com/asash/bert4rec_repro/blob/main/recommenders/dnn_sequential_recommender/dnn_sequential_recommender.py

結果(RQ1とAbstractだけ)

元論文のDefaultのパラメーターだと論文に書かれていたものより30x時間がかかる
Hugging FaceのTransformerライブラリなら、95%学習時間を短縮できるのでおすすめ
Bert4Recは確かに精度は高いが、それは十分な時間をかけて学習したときだけ
DeBERTaのような disentangled attentionや ALBERTのようなhuge hidden layerを一緒に使うと精度向上する

その他

過去にNNのRecsysはナイーブな行列分解系に劣ると主張する論文もあったが、NNの学習不足が問題だったかもしれない

hakubishin3 commented 1 year ago

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

モデル: https://huggingface.co/bigscience/bloom

176Bパラメータのオープンな巨大モデルbloomの論文。共著者が非常に多い。計59言語（46の自然言語と13のプログラミング言語、1.61テラバイトに相当）のコーパスで学習が行われている。学習に使用したリソースは 384台分のA100 80GB 、約 3.5 ヶ月の計算時間が費やされた。軽量なモデルも用意されている。

https://huggingface.co/bigscience?sort_models=downloads#models

wantedly / machine-learning-round-table

[2022/11/25]Machine Learning 輪講 #172

Why