wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2024/01/10]推薦・機械学習勉強会 #229

Open Hayashi-Yudai opened 5 months ago

Hayashi-Yudai commented 5 months ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3角川/nogawanogawa林/python_walker まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週水曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!

prev: https://github.com/wantedly/machine-learning-round-table/issues/228

chimuichimu commented 5 months ago

Use LlamaIndex to Build an AI Shopping Assistant with RAG and Agents

image

(宣伝)近似最近傍探索ライブラリVoyagerの記事を書きました

追記:勉強会内で出た質問に対する回答 Q. Voyager, Annoyのインデックスの構築時間は? A. データセットGloVe(アイテム数~120万、ベクトル次元数=100)に対し、Voyager(デフォルトパラメータ)は20分程度、Annoy(n_trees=100)は6分程度

nogawanogawa commented 5 months ago

日本語版のColBERTを検索に使ってみる

image

クエリと文書をそれぞれ別のエンコーダーで埋め込み、クエリ中の各トークンの埋め込みと文書の各トークンの埋め込みの間で最大類似度を計算し、その総和をスコアとしています。

(クエリ側のトークン数 * ドキュメント側のトークン数だけ計算する必要はあるが)高速にcos_simが計算できれば確かにこういうのもできそう。

性能も悪くはなさそう(multilingual-e5-baseと同程度、BM25よりは良さそう)

hakubishin3 commented 5 months ago

高速形態素解析 Jagger の Python binding のメモ

高速日本語形態素解析 jagger の python binding を作った人の記事

https://github.com/lighttransport/jagger-python

Wikipedia 1.2 GB(371 万行)が 30 秒で処理できるよ✊

すごい

Scikit-Learn ライクに LLM を扱えるライブラリ:Scikit-LLM

https://github.com/iryna-kondr/scikit-llm https://beastbyteai.github.io/scikit-llm-docs/

現在は主に以下の機能がある

# Import the necessary modules
from skllm.datasets import get_classification_dataset
from skllm.config import SKLLMConfig
from skllm.models.gpt.classification.zero_shot import ZeroShotGPTClassifier

# Configure the credentials
SKLLMConfig.set_openai_key("<YOUR_KEY>")
SKLLMConfig.set_openai_org("<YOUR_ORGANIZATION_ID>")

# Load a demo dataset
X, y = get_classification_dataset() # labels: positive, negative, neutral

# Initialize the model and make the predictions
clf = ZeroShotGPTClassifier(model="gpt-4")
clf.fit(X,y)
clf.predict(X)
KKaichi commented 5 months ago

Recommender Systems with Generative Retrieval

NeurIPS2023でポスター発表されたみたい?

figure1