[2023/12/27]推薦・機械学習勉強会

Hayashi-Yudai commented 11 months ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3、角川/nogawanogawa、林/python_walker まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

What

Wantedly では隔週水曜日に

推薦の評価指標について議論したい
〇〇っていうライブラリ / フレームワークを導入してみたい
他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: https://github.com/wantedly/machine-learning-round-table/issues/225

hakubishin3 commented 11 months ago

宣伝: Recommendation Industry Talks を開催します！

本イベントは、企業における推薦システム開発・運用の促進を目的として、「実応用×推薦システム」を主軸とした、推薦システムに関する各社の事例や知見を共有するための勉強会です。3ヶ月おきに今後も開催していくつもりです。

Function callingはどれくらい正しくレストラン予約できるのか？

Function calling の呼び出し精度について定量的に評価したブログ記事モデル自体の賢さやプロンプト・関数定義の改善によって呼び出し精度が大きく変化することを示している

GPT3.5でもプロンプトを頑張ればシンプルなGPT4出力と同等の性能に持っていけることに面白みを感じた

Hayashi-Yudai commented 11 months ago

言語モデルを用いたQuery Categorization

ユーザーの検索クエリからユーザーの欲しがっているアイテムのカテゴリを推定するモデルに言語モデルを利用した、というブログ記事。推定されたカテゴリは、検索エンジンに投げてアイテムを取得するのに使われる。

クエリのembeddingを計算する部分に、自社データを使ったfine-tuneをした後のDistilBERTを利用している。後段の分類器の部分をクリックログ等を使って学習することによって、micro-f1スコアが改善。

chimuichimu commented 11 months ago

OpenAI Embeddings APIとベクトル検索エンジンValdを使って類似文章検索をしてみよう

OpenAIが提供する文章ベクトルを獲得するためのAPI（Embeddings）と近似最近傍探索ライブラリのValdを使って、類似するニュースタイトルの検索を試す記事。

OpenAI APIの登場により、文章のベクトル化の技術的ハードルは従来よりも下がった。コスト面でもEmbeddingsは＄0.0004 / 1000 tokensとかなり安い。またValdのような近似最近傍探索の技術により、データ量の増加に対してもスケールが可能。

本記事で紹介されている文章検索だけでなく、自然言語で書かれたアイテムの情報を使ったコンテンツベースの推薦にも、これらの技術が活用していけそうと考えた。

KKaichi commented 11 months ago

仁平，私用のため参加できません🙇 最近休みがちで大変申し訳ありません🙇 最近読んだ論文を置いておきます🙇

Beyond Two-Tower Matching: Learning Sparse Retrievable Cross-Interactions for Recommendation

会議名

SIGIR '23: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval （2023年7月）

選んだ理由

「two-towerを超えた」というタイトルがカッコ良かった

内容

相互作用能力の限界とオンライン提供時の精度の低下を解決することを目指すため，SparCodeという新しいフレームワークが提案されている． → 細かいクエリアイテムの相互作用をモデル化するためのAll to all相互作用モジュールを導入 → 離散コードベースのスパース転置インデックスを設計

3539618 3591643 key

nogawanogawa commented 11 months ago

MLOpsの意義：機械学習プロジェクトを成功させるための鍵

MLOps版Four Keysが興味深い

デプロイメント頻度（Deployment Frequency）

機械学習モデルがどれだけ頻繁にプロダクション環境にデプロイされるかを測定。

この指標は、チームが新しいモデルやモデルのアップデートを迅速にリリースできるかどうかを示す。

リードタイム（Lead Time）

モデルのアイデアから実際の運用環境でのデプロイメントまでの時間。

データ準備、トレーニング、テスト、バリデーションを含むプロセスの効率を反映する。

チェンジフェイル率（Change Failure Rate）

新たにデプロイされたモデルが期待通りに機能しない割合。

モデルの品質、データの整合性、モデルの適切な評価の重要性を強調する。

リカバリータイム（Time to Recover）

モデルやシステムの障害から復旧するまでの時間。

モデルの監視、異常検知、迅速な対応能力を測る指標。

（宣伝）Wantedly Advent Calendar 2023 完走しました！

いろんな記事があるんで、ご興味ある方は覗いてみてください

https://qiita.com/advent-calendar/2023/wantedly

wantedly / machine-learning-round-table