[2024/01/10]推薦・機械学習勉強会

Hayashi-Yudai commented 10 months ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3、角川/nogawanogawa、林/python_walker まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

What

Wantedly では隔週水曜日に

推薦の評価指標について議論したい
〇〇っていうライブラリ / フレームワークを導入してみたい
他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: https://github.com/wantedly/machine-learning-round-table/issues/228

chimuichimu commented 10 months ago

Use LlamaIndex to Build an AI Shopping Assistant with RAG and Agents

LlamaIndexを使ったファッション商品推薦のRAGシステムのデモを紹介した記事
ユーザからのテキスト＋画像による指示を基に、天気などのコンテキストを考慮したうえでマッチする商品を対話的に出力
LlamaIndex, Gradioといったフレームワークと、ベクトルDBや外部APIを統合する実装リファレンスとして参考になりそうと感じた

(宣伝)近似最近傍探索ライブラリVoyagerの記事を書きました

Spotifyの近似最近傍探索ライブラリVoyagerについて、内部で使われているアルゴリズムや類似単語検索を試してみたコード、Annoyとの性能比較について書いた
Annoyとの性能の比較ではSpotifyのブログ記事のとおり精度 / 探索速度 / メモリ効率においてVoyagerの性能が良いことが確認できた
性能の比較にann-benchmarksというリポジトリのコードを使ってみた。色々なデータセットに対して精度（Recall）、クエリ速度、インデックスの構築にかかる時間、インデックスのメモリサイズといった情報が比較できる。ベクトル検索のライブラリ選定や、適切なハイパーパラメータを選定するうえで便利そうと感じた。

追記：勉強会内で出た質問に対する回答 Q. Voyager, Annoyのインデックスの構築時間は？ A. データセットGloVe（アイテム数~120万、ベクトル次元数=100）に対し、Voyager（デフォルトパラメータ）は20分程度、Annoy（n_trees=100）は6分程度

nogawanogawa commented 10 months ago

日本語版のColBERTを検索に使ってみる

クエリと文書をそれぞれ別のエンコーダーで埋め込み、クエリ中の各トークンの埋め込みと文書の各トークンの埋め込みの間で最大類似度を計算し、その総和をスコアとしています。

（クエリ側のトークン数 * ドキュメント側のトークン数だけ計算する必要はあるが）高速にcos_simが計算できれば確かにこういうのもできそう。

性能も悪くはなさそう（multilingual-e5-baseと同程度、BM25よりは良さそう）

hakubishin3 commented 10 months ago

高速形態素解析 Jagger の Python binding のメモ

高速日本語形態素解析 jagger の python binding を作った人の記事

https://github.com/lighttransport/jagger-python

Wikipedia 1.2 GB(371 万行)が 30 秒で処理できるよ✊

すごい

Scikit-Learn ライクに LLM を扱えるライブラリ：Scikit-LLM

https://github.com/iryna-kondr/scikit-llm https://beastbyteai.github.io/scikit-llm-docs/

現在は主に以下の機能がある

Text Classification
Text Summarization
Text Translation
Text Vectorization

# Import the necessary modules
from skllm.datasets import get_classification_dataset
from skllm.config import SKLLMConfig
from skllm.models.gpt.classification.zero_shot import ZeroShotGPTClassifier

# Configure the credentials
SKLLMConfig.set_openai_key("<YOUR_KEY>")
SKLLMConfig.set_openai_org("<YOUR_ORGANIZATION_ID>")

# Load a demo dataset
X, y = get_classification_dataset() # labels: positive, negative, neutral

# Initialize the model and make the predictions
clf = ZeroShotGPTClassifier(model="gpt-4")
clf.fit(X,y)
clf.predict(X)

KKaichi commented 10 months ago

Recommender Systems with Generative Retrieval

NeurIPS2023でポスター発表されたみたい？

wantedly / machine-learning-round-table