wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2023/08/22]推薦・機械学習勉強会 #209

Open zerebom opened 10 months ago

zerebom commented 10 months ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は樋口(https://twitter.com/zerebom_3) まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週水曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!

prev: #207

zerebom commented 10 months ago

MLOps Landscape in 2023: Top Tools and Platforms

2023年におけるMLOpsのツールを包括的にまとめたブログ。下記の分類に沿って各ツールを紹介している。

image

  • End-to-end Machine Learning Operations (MLOps) platforms
  • Experiment tracking, model metadata storage and management
  • Dataset labeling and annotation
  • Data storage and versioning
  • Data quality monitoring and management
  • Feature stores
  • Model hubs
  • Model quality testing
  • Workflow orchestration and pipelining tools
  • Model deployment and serving
  • Model observability
  • Responsible AI
  • Compute and infrastructure
  • GPU Cloud Servers
  • [NEW] Serverless GPUs
  • [NEW] Vector databases and data retrieval
  • [NEW] Foundation model training frameworks

ここではいくつかのツールに絞ってピックアップ

MLOpsのtoolやプラットフォームをどう評価するべきか

チームのニーズに沿って、下記の観点で評価するとよい。

E2E MLOpsプラットフォームはどんな機能を有しているか

例えば、Amazon SageMaker, VertexAI, DataRobot W&Bなどのツールのことなど。主に下記の機能を所有する。

Experiment tracking, model metadata storage and management ツールの評価観点

下記のような観点を見ると良い。

チームの用途が研究か製品化なのか?などユースケースとも照らし合わせることが寛容。

Feature storesツールの評価観点

例えばFeast, Tecton, Featureform, VertexAI,などがある

nogawanogawa commented 10 months ago

Scaling the Instagram Explore recommendations system

インスタグラムのexploreの推薦システムの紹介記事

全体構成

全体構成はこんな感じ、3 stage recommendation. (retreaval + two tower + ranking)

image

retrieval

4種類くらいの方法で取得しているらしい。

image

two towerモデルをretrievalの一つとして使用している。

image

これで1000個に絞る。

1st stage ranking

Two tower modelを使ってretrieval, 候補を1000 -> 100個に絞る。

image

同じtwo towerではあるが、目的関数が異なる。

2nd stageの出力のtopKに含まれているアイテムを予測するように学習を行う模様。(特徴量抽出器として機能させているぽい?)

2nd stage ranking

multi-task multi label (MTML) neural network model.

を使ってランキングを作っているらしい。 ここでは複数のラベルを予測しており、それらを組み合わせられるようにしている。(あとから調整がが簡単というメリット)

image

その他、パラメータチューニングにはBayesian optimizationを使用しているらしい。