Open hakubishin3 opened 9 months ago
先日リリースしましたビジネスマッチングのレコメンデーションについて内部実装の話しをします。 今回はコンテンツベースで実装していますが、データの癖などがやはりtoCと違うため、公開情報が少ないBtoBのレコメンデーションの参考になるかと思います。
現地の様子含めた RecSys2023 の全体像に加えて、参加メンバーが聴講した一般発表やワークショップ・チュートリアルの内容をリストアップして簡単に紹介しています。
Feature Storeの周辺技術要素や運用に対するプラクティスをまとめたブログ。Feature Storeってなにするものなのか?と最近気になっていたので、このブログをもとに諸々調べた。
Registryに定義していたFeatureをOnline / OfflineどちらからもFetchできる。
いくつかのOptionがある
- Log and wait: You just have to log specific features, such as n_cumulative_items_in_the_cart, and then we’ll know how many items the user had at that point in time. The main drawback is that this feature collection strategy needs time to gather enough data points for the use case. But on the other hand, it is easy to implement.
- Backfilling: This technique basically aims to reconstruct the desired features at a given point in time. For example, by looking at logged events, we could add all the items added to the cart before each purchase. However, this might become very complex as we have to select the time window cutoff for every feature. These queries are commonly known as point-in-time joins.
- Snapshotting: It is based on dumping the state of a production database periodically. This allows having features at any given point in time, with the drawback that the data changes between consecutive snapshots wouldn’t be available.
機械学習モデルの推論時の高速化の手法の一つに推論サーバーを使用する方法があり、中でも一般的なONNXを使用して高速化した記事。 Huggingface transformersを使用して高速化する方法を解説。
自分でも試しにやってみたところ推論は2~4倍程度速くなった印象だった(baseline状況によってまちまちではあるが速くはなった)ので、推論を高速化する手段としては結構アリだなという印象。
↑の記事と似ているが、こちらをTriton Inference Serverを使用して高速化する手法を紹介。
のテクニックによって高速化ができるそう。
GPUを使ってオンラインで推論する際にはこういうのを駆使して処理速度の向上する必要がありそう。
差分の差分法を使って時系列データを使って介入効果を正しく計算するには色々考える必要がある、ということが書いてある記事。
Why
推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!
発信のため、ここは public にしてあります。外部からの参加をご希望の方は樋口(https://twitter.com/zerebom_3) まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!
What
Wantedly では隔週水曜日に
といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。
話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!
prev: https://github.com/wantedly/machine-learning-round-table/issues/211