Open Hayashi-Yudai opened 10 months ago
追記:勉強会内で出た質問に対する回答 Q. Voyager, Annoyのインデックスの構築時間は? A. データセットGloVe(アイテム数~120万、ベクトル次元数=100)に対し、Voyager(デフォルトパラメータ)は20分程度、Annoy(n_trees=100)は6分程度
クエリと文書をそれぞれ別のエンコーダーで埋め込み、クエリ中の各トークンの埋め込みと文書の各トークンの埋め込みの間で最大類似度を計算し、その総和をスコアとしています。
(クエリ側のトークン数 * ドキュメント側のトークン数だけ計算する必要はあるが)高速にcos_simが計算できれば確かにこういうのもできそう。
性能も悪くはなさそう(multilingual-e5-baseと同程度、BM25よりは良さそう)
高速日本語形態素解析 jagger の python binding を作った人の記事
https://github.com/lighttransport/jagger-python
Wikipedia 1.2 GB(371 万行)が 30 秒で処理できるよ✊
すごい
https://github.com/iryna-kondr/scikit-llm https://beastbyteai.github.io/scikit-llm-docs/
現在は主に以下の機能がある
# Import the necessary modules
from skllm.datasets import get_classification_dataset
from skllm.config import SKLLMConfig
from skllm.models.gpt.classification.zero_shot import ZeroShotGPTClassifier
# Configure the credentials
SKLLMConfig.set_openai_key("<YOUR_KEY>")
SKLLMConfig.set_openai_org("<YOUR_ORGANIZATION_ID>")
# Load a demo dataset
X, y = get_classification_dataset() # labels: positive, negative, neutral
# Initialize the model and make the predictions
clf = ZeroShotGPTClassifier(model="gpt-4")
clf.fit(X,y)
clf.predict(X)
NeurIPS2023でポスター発表されたみたい?
Why
推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!
発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3、角川/nogawanogawa、林/python_walker まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!
What
Wantedly では隔週水曜日に
といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。
話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!
prev: https://github.com/wantedly/machine-learning-round-table/issues/228