[2023/10/04]推薦・機械学習勉強会

hakubishin3 commented 9 months ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は樋口(https://twitter.com/zerebom_3) まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

What

Wantedly では隔週水曜日に

推薦の評価指標について議論したい
〇〇っていうライブラリ / フレームワークを導入してみたい
他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: https://github.com/wantedly/machine-learning-round-table/issues/211

yoko8ma commented 9 months ago

AIを活用したビジネスマッチング先の自動レコメンド機能実証実験を開始

先日リリースしましたビジネスマッチングのレコメンデーションについて内部実装の話しをします。今回はコンテンツベースで実装していますが、データの癖などがやはりtoCと違うため、公開情報が少ないBtoBのレコメンデーションの参考になるかと思います。

hakubishin3 commented 9 months ago

Wantedly 推薦チームで RecSys 2023 に現地参加しました

現地の様子含めた RecSys2023 の全体像に加えて、参加メンバーが聴講した一般発表やワークショップ・チュートリアルの内容をリストアップして簡単に紹介しています。

zerebom commented 8 months ago

How to Solve the Data Ingestion and Feature Store Component of the MLOps Stack

Feature Storeの周辺技術要素や運用に対するプラクティスをまとめたブログ。Feature Storeってなにするものなのか?と最近気になっていたので、このブログをもとに諸々調べた。

FeatureStoreが解決したいこと

特徴を共有・発見し、より効果的な機械学習パイプラインを作成できる機械学習のためのデータ管理レイヤー

Feature Storeの責務(とても広い)

Featureの定義・ソースなどを一元管理する。車輪の再発明回避
オフライン/オンラインでの特徴量のサービングを抽象化する
Featureのカタログ化
FeatureのFetch方法の抽象化
- 簡単にリークが起きない最新のデータをFetchできるようにする
FeatureのTransform
- ものによってはサポートしてない

Feature Store自身や周辺のコンポーネント/用語

Lambda Architecture:
- リアルタイム演算を行うためのデータ基盤アーキテクチャ
- バッチレイヤー: データを大量に計算 & 長期保存
- スピードレイヤー: リアルタイムに処理 & 短期保存
- サービングレイヤー: バッチ・スピードの結果を統合し答えを返す
Offline Store: 高スループットなデータソースBigQueryなど
Online Store: 低レイテンシなデータソース Redisなど
Feature Catalog or Registry: FeatureをイケてるUIで一覧できる機能
Feature Store SDK: Online, Offline特徴にアクセスできるためのSDK
Metadata Management: 編集者・データの入力・スキーマの変更など管理

実例 FeastのOverView

Registryに定義していたFeatureをOnline / OfflineどちらからもFetchできる。

実例なるべく最新のデータを使いつつリークなく特徴量を作るにはどうすればよいか

いくつかのOptionがある

Log and wait: You just have to log specific features, such as n_cumulative_items_in_the_cart, and then we’ll know how many items the user had at that point in time. The main drawback is that this feature collection strategy needs time to gather enough data points for the use case. But on the other hand, it is easy to implement.

Backfilling: This technique basically aims to reconstruct the desired features at a given point in time. For example, by looking at logged events, we could add all the items added to the cart before each purchase. However, this might become very complex as we have to select the time window cutoff for every feature. These queries are commonly known as point-in-time joins.

Snapshotting: It is based on dumping the state of a production database periodically. This allows having features at any given point in time, with the drawback that the data changes between consecutive snapshots wouldn’t be available.

感想

Feature Storeと一言で言っても、相当に責務が広い。組織によって何を使うかは取捨選択する必要がありそう。

nogawanogawa commented 8 months ago

Huggingface transformersモデルのONNX runtimeによる推論の高速化

機械学習モデルの推論時の高速化の手法の一つに推論サーバーを使用する方法があり、中でも一般的なONNXを使用して高速化した記事。 Huggingface transformersを使用して高速化する方法を解説。

自分でも試しにやってみたところ推論は2~4倍程度速くなった印象だった（baseline状況によってまちまちではあるが速くはなった）ので、推論を高速化する手段としては結構アリだなという印象。

GPU上の推論サーバーのパフォーマンスチューニング方法

↑の記事と似ているが、こちらをTriton Inference Serverを使用して高速化する手法を紹介。

fp16を使用
リクエストの並列処理
パイプライン最適化

のテクニックによって高速化ができるそう。

GPUを使ってオンラインで推論する際にはこういうのを駆使して処理速度の向上する必要がありそう。

Hayashi-Yudai commented 8 months ago

How to Accurately Test Significance with Difference in Difference Models

差分の差分法を使って時系列データを使って介入効果を正しく計算するには色々考える必要がある、ということが書いてある記事。

wantedly / machine-learning-round-table