wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2024/02/21]推薦・機械学習勉強会 #235

Open Hayashi-Yudai opened 4 months ago

Hayashi-Yudai commented 4 months ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3角川/nogawanogawa林/python_walker まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週水曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!

prev: https://github.com/wantedly/machine-learning-round-table/issues/233

KKaichi commented 4 months ago

楽天さんが特許申請中みたい

要約の抜粋

課題

chimuichimu commented 4 months ago

Introducing vector search in BigQuery

概要

BigQueryでベクトル検索の機能がPublic Previewとなった。これによりBigQuery上で、文章や画像の埋め込みから類似ベクトルを検索したり、埋め込みの生成機能やLLMと組み合わせてRAGを構築したりすることができる。

実行のイメージ

記事中では、以下のケースのSQLクエリのサンプルが紹介されている。

以下はCase 2のSQLクエリから、ある文章に対するベクトル検索を実行する部分を引用したもの。 "improving password security"という文章の埋め込み表現を作ったうえで、それをクエリとして事前に作成した検索先のベクトルを格納したテーブルから、近傍のベクトルを検索している。

SELECT query.query, base.publication_number, base.title, base.abstract
FROM VECTOR_SEARCH(
   TABLE `<patents_my_embeddings_table>`, 'text_embedding',
   (SELECT text_embedding, content AS query
     FROM ML.GENERATE_TEXT_EMBEDDING(
         MODEL `<LLM_embedding_model>`,
         (SELECT 'improving password security' AS content))
   ), top_k => 5)

SQLクエリ中のVECTOR_SEARCH関数がベクトル検索に対応する機能で、

VECTOR_SEARCH(
  TABLE `<検索先のテーブル名>`, `<検索先の埋め込みのカラム名>`
  TABLE `<検索元のテーブル名>`
  /* 以下オプション */
  [, query_column_to_search => query_column_to_search_value]
  [, top_k => top_k_value ]
  [, distance_type => distance_type_value ]
  [, options => options_value ])

という感じで使うみたい。オプションで、

といった項目が指定できる。詳細は公式ドキュメント参照。

リンク

hakubishin3 commented 4 months ago

メルカリで値段の「¥マーク」を小さくしたら購入率が伸びた理由、ペイディがサービス名を「カタカナ表記」にする理由など、プロダクトのマーケ施策まとめ30(2023)

大きな機能を新しく提供しなければ課題解決ができないかというとそうではなく、小さな改善で大きな価値に繋げられるケースは非常に多い。本記事では、様々なアプリやサービスにおける成功事例を紹介している。

以下、個人的に好きなもの

Independent analysis of AI models and hosting providers

各LLMの出力の質やスループット、価格などが比較評価されている

スクリーンショット 2024-02-21 15 07 55
nogawanogawa commented 4 months ago

レシピ栄養情報を用いたDELISH KITCHENユーザー嗜好のクラスター分析

挑戦WEEKとは 「弊社開発メンバーが通常業務から離れ、技術的に何かに集中して挑戦する」という位置付けの1週間です。

素敵。

クラスタ0: 平均カロリーが高め & 主食系のレシピも視聴されやすい → 主食も取り入れ層 クラスタ1: 脂質高め(≒糖質は相対的に低め)& 材料系の頻出語が多い → 材料メイン層 クラスタ2: 糖質高め & お菓子系の頻出語が多い → スイーツトレンド層

普通に眺めているだけでは絶対されないクラスタリング結果で面白い。

Hugging FaceのCompetitionsでscriptコンペをホストしてみた

社内向けscriptコンペティションの開催した話。 kaggleっぽいコードコンペをHuggingFace上でプライベートで開催できるらしい。

人数多い組織ならこういうのやるのも楽しいかも。

Hayashi-Yudai commented 4 months ago

分類器の出力確率は信用できるのか?calibration性能を向上させる損失関数「AdaFocal」

分類器の出力確率を正しい確率に一致させる"calibration problem"の研究論文について紹介された記事。Focal Lossはサンプルの分類難易度に応じてロスに対する重みを調整するような構造を持つ損失関数だが、calibrationを改善する効果があることが最近わかってきているらしい。それを改善することによってさらにcalibration精度を高めたということが紹介されている。