nogawanogawa commented 1 year ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/191

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

Hayashi-Yudai commented 1 year ago

Graph Collaborative Signals Denoising and Augmentation for Recommendation

グラフ協調フィルタリングでデータセット上にはないuser-user間、item-item間の情報をうまく組み込むことで推薦精度を向上させることができたという論文。

グラフ協調フィルタリングモデルでは隣接行列に対してGCN層を重ねて高次の相互作用を取り込んでいく。しかし、一般的に隣接行列にはuser-item間のインタラクション情報しか含まれておらず、情報を十分活用できているとは言えないという課題があった。

そこでこのモデルでは、user-user間、item-item間の情報を使うためにモデルの学習を2回に分けるという手法を提案した。

一般的な隣接行列を用いて学習を行う
モデルを使って各ユーザ・各アイテム間の類似度を計算してtop-Kのユーザ・アイテム間にリンクが有ると考えて隣接行列を拡張する
拡張された隣接行列を用いて学習を再度行う

多くのデータセットでこの手法による精度改善が見られた。

nogawanogawa commented 1 year ago

RealGraph: User Interaction Prediction at Twitter

論文URL

https://www.ueo-workshop.com/wp-content/uploads/2014/04/sig-alternate.pdf

著者

Krishna Kamath, Aneesh Sharma, Dong Wang, Zhijun Yin

会議

UEO ’14

背景

SNSにおけるパーソナライズでは、与えられたユーザーの既存の結びつきに対する関係強度を推定することが重要になる。 Twitterのフォロー関係の強さを計算するにはいくつか問題がある。

1つには、likeやretweetなどの複数の行動があるなかで繋がりの強さをどう扱えばよいかわからない。もう一つは、2億5千万人以上のアクティブユーザーがおり、数十億のフォローエッジが存在し、毎日数十億のインタラクションが行われている点で、計算規模が非常に大きくなる。最後に、計算できた繋がりの強さをどう解釈したらよいかわからないという点である。

目的

ユーザー間の結びつきの強さを、Twitterのユーザー規模で現実的に処理できる枠組みの構築

アプローチ

RealGraph
- ユーザーのフォロー関係やアドレス帳、過去のやり取りをもとにグラフを構築
- グラフ上のノードはユーザー、エッジは何らかのつながりを表す
- ノード・エッジについて過去のインタラクション量をもとにした特徴量を使用して、ロジスティック回帰によって未来のインタラクションを予測した確率を、エッジの重みとして使用する

memo

https://github.com/nogawanogawa/paper_memo/issues/81

zerebom commented 1 year ago

Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront

https://github.com/visenger/awesome-mlops/blob/master/papers.md で見つけた論文

機械学習モデルを実際に運用する際の問題点と、その解決策について調査した論文。

論文では、機械学習のモデル開発者とシステムエンジニアの間にある溝が主な問題点であることが示されている。この溝は、文化やツールの違い、スキルの欠如、プロセスの違いなどによって引き起こされる。

論文では、技術的な解決策と非技術的な解決策が提案されている。技術的な解決策には、モデルレジストリとフィーチャーストアの導入、チームの横断的な再構築、データサイエンティストとシステムエンジニアのペアリングやコードレビューが含まれる。これらの技術的な解決策により、組織内のエンティティがより体系的かつ構造化された方法で作業することができる。

非技術的な解決策には、役割の理解と仲介を担う役割の導入、共通の用語辞書の構築、共通の目標を理解するための翻訳作業が含まれる。これらの非技術的な解決策により、異なる役割やチーム間で共通の言語を持つことができ、製品を共有の責任として理解することができる。また、データの生産者と消費者間の統合についても取り上げられており、データのアクセスやデータの品質管理についての課題があることが指摘されている。

アンチパターン17個(ChatGPTの訳)

マネジメント層のリーダーシップ不足
組織内のサイロ化（部署間の壁が高いこと）
組織内でのコミュニケーション不足
不十分なドキュメンテーション
不明確な開発プロセス
テクノロジー中心の問題設定
開発者の教育不足
開発者のスキル不足
組織の文化や価値観がMLプロジェクトと合わない
ビジネス目的とMLプロジェクトの目的が一致しない
データ品質が不十分
不適切な選択や使用のフレームワーク
モデルが現実世界に適用されない
本番環境における技術的な問題
セキュリティに関する問題
コスト効率が悪い
法的な規制やコンプライアンスに違反する可能性がある

wantedly / machine-learning-round-table

[2023/04/26]Machine Learning 輪講 #194

Why