wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2023/10/04]推薦・機械学習勉強会 #214

Open hakubishin3 opened 9 months ago

hakubishin3 commented 9 months ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は樋口(https://twitter.com/zerebom_3) まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週水曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!

prev: https://github.com/wantedly/machine-learning-round-table/issues/211

yoko8ma commented 9 months ago

AIを活用したビジネスマッチング先の自動レコメンド機能 実証実験を開始

先日リリースしましたビジネスマッチングのレコメンデーションについて内部実装の話しをします。 今回はコンテンツベースで実装していますが、データの癖などがやはりtoCと違うため、公開情報が少ないBtoBのレコメンデーションの参考になるかと思います。

hakubishin3 commented 9 months ago

Wantedly 推薦チームで RecSys 2023 に現地参加しました

現地の様子含めた RecSys2023 の全体像に加えて、参加メンバーが聴講した一般発表やワークショップ・チュートリアルの内容をリストアップして簡単に紹介しています。

zerebom commented 8 months ago

How to Solve the Data Ingestion and Feature Store Component of the MLOps Stack

Feature Storeの周辺技術要素や運用に対するプラクティスをまとめたブログ。Feature Storeってなにするものなのか?と最近気になっていたので、このブログをもとに諸々調べた。

FeatureStoreが解決したいこと

Feature Storeの責務(とても広い)

image

Feature Store自身や周辺のコンポーネント/用語

実例 FeastのOverView

image

Registryに定義していたFeatureをOnline / OfflineどちらからもFetchできる。

実例 なるべく最新のデータを使いつつリークなく特徴量を作るにはどうすればよいか

image

いくつかのOptionがある

  • Log and wait: You just have to log specific features, such as n_cumulative_items_in_the_cart, and then we’ll know how many items the user had at that point in time. The main drawback is that this feature collection strategy needs time to gather enough data points for the use case. But on the other hand, it is easy to implement.
  • Backfilling: This technique basically aims to reconstruct the desired features at a given point in time. For example, by looking at logged events, we could add all the items added to the cart before each purchase. However, this might become very complex as we have to select the time window cutoff for every feature. These queries are commonly known as point-in-time joins.
  • Snapshotting: It is based on dumping the state of a production database periodically. This allows having features at any given point in time, with the drawback that the data changes between consecutive snapshots wouldn’t be available.

感想

nogawanogawa commented 8 months ago

Huggingface transformersモデルのONNX runtimeによる推論の高速化

機械学習モデルの推論時の高速化の手法の一つに推論サーバーを使用する方法があり、中でも一般的なONNXを使用して高速化した記事。 Huggingface transformersを使用して高速化する方法を解説。

自分でも試しにやってみたところ推論は2~4倍程度速くなった印象だった(baseline状況によってまちまちではあるが速くはなった)ので、推論を高速化する手段としては結構アリだなという印象。

GPU上の推論サーバーのパフォーマンスチューニング方法

↑の記事と似ているが、こちらをTriton Inference Serverを使用して高速化する手法を紹介。

  1. fp16を使用
  2. リクエストの並列処理
  3. パイプライン最適化

のテクニックによって高速化ができるそう。

GPUを使ってオンラインで推論する際にはこういうのを駆使して処理速度の向上する必要がありそう。

Hayashi-Yudai commented 8 months ago

How to Accurately Test Significance with Difference in Difference Models

差分の差分法を使って時系列データを使って介入効果を正しく計算するには色々考える必要がある、ということが書いてある記事。