Open Hayashi-Yudai opened 4 months ago
ヒンジペアワイズ距離損失及び直交表現を有する1クラス推薦システム
BigQueryでベクトル検索の機能がPublic Previewとなった。これによりBigQuery上で、文章や画像の埋め込みから類似ベクトルを検索したり、埋め込みの生成機能やLLMと組み合わせてRAGを構築したりすることができる。
記事中では、以下のケースのSQLクエリのサンプルが紹介されている。
以下はCase 2のSQLクエリから、ある文章に対するベクトル検索を実行する部分を引用したもの。 "improving password security"という文章の埋め込み表現を作ったうえで、それをクエリとして事前に作成した検索先のベクトルを格納したテーブルから、近傍のベクトルを検索している。
SELECT query.query, base.publication_number, base.title, base.abstract
FROM VECTOR_SEARCH(
TABLE `<patents_my_embeddings_table>`, 'text_embedding',
(SELECT text_embedding, content AS query
FROM ML.GENERATE_TEXT_EMBEDDING(
MODEL `<LLM_embedding_model>`,
(SELECT 'improving password security' AS content))
), top_k => 5)
SQLクエリ中のVECTOR_SEARCH
関数がベクトル検索に対応する機能で、
VECTOR_SEARCH(
TABLE `<検索先のテーブル名>`, `<検索先の埋め込みのカラム名>`
TABLE `<検索元のテーブル名>`
/* 以下オプション */
[, query_column_to_search => query_column_to_search_value]
[, top_k => top_k_value ]
[, distance_type => distance_type_value ]
[, options => options_value ])
という感じで使うみたい。オプションで、
top_k
: 上位何件の近傍を抽出するかdistance_type
: 距離計算の方法use_brute_force
: 総当たりで最近傍検索をするかといった項目が指定できる。詳細は公式ドキュメント参照。
大きな機能を新しく提供しなければ課題解決ができないかというとそうではなく、小さな改善で大きな価値に繋げられるケースは非常に多い。本記事では、様々なアプリやサービスにおける成功事例を紹介している。
以下、個人的に好きなもの
各LLMの出力の質やスループット、価格などが比較評価されている
挑戦WEEKとは 「弊社開発メンバーが通常業務から離れ、技術的に何かに集中して挑戦する」という位置付けの1週間です。
素敵。
クラスタ0: 平均カロリーが高め & 主食系のレシピも視聴されやすい → 主食も取り入れ層 クラスタ1: 脂質高め(≒糖質は相対的に低め)& 材料系の頻出語が多い → 材料メイン層 クラスタ2: 糖質高め & お菓子系の頻出語が多い → スイーツトレンド層
普通に眺めているだけでは絶対されないクラスタリング結果で面白い。
社内向けscriptコンペティションの開催した話。 kaggleっぽいコードコンペをHuggingFace上でプライベートで開催できるらしい。
人数多い組織ならこういうのやるのも楽しいかも。
分類器の出力確率を正しい確率に一致させる"calibration problem"の研究論文について紹介された記事。Focal Lossはサンプルの分類難易度に応じてロスに対する重みを調整するような構造を持つ損失関数だが、calibrationを改善する効果があることが最近わかってきているらしい。それを改善することによってさらにcalibration精度を高めたということが紹介されている。
Why
推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!
発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3、角川/nogawanogawa、林/python_walker まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!
What
Wantedly では隔週水曜日に
といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。
話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!
prev: https://github.com/wantedly/machine-learning-round-table/issues/233