wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
297 stars 2 forks source link

[2024/05/27]推薦・機械学習勉強会 #249

Open chimuichimu opened 1 month ago

chimuichimu commented 1 month ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3角川/nogawanogawa林/python_walker まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週水曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!

prev: #247

chimuichimu commented 1 month ago

ベクトルデータの容量を96%削減するBinary Embedding

課題感

RAG におけるドキュメントの Embedding の保管で、データ容量が大きくなってしまう

BinaryEmbedding とは?

精度とのトレードオフ

精度の影響を以下の3つの手法で確認

  1. binary embedding
  2. int8 embedding
  3. binary embedding with rerank

シンプルな1.の手法では全体的に精度が悪く、ドキュメントのサイズが大きくなった時の下がり幅も大きかった。一方で3.の rerank を入れた手法では元の embedding と同程度の精度が出せることが確認できた。

Infinite Nature and the nature of industries: This 'wild' demo shows the diverse possibilities of AI

Google I/O で展示された Infinite Nature という生成的推薦とマルチモーダル意味検索デモについての記事

hakubishin3 commented 1 month ago

データ基盤のためのリーダブルSQL

データ基盤は継続的に運用してバグを発見・修正する必要がある そのために管理しやすいSQLを書くためのポイントが紹介されている

  1. 適切なCTEsをつけてあげる
  2. サブクエリを使わない
  3. finalのCTEsを必ず使う
  4. import CTEsとFunctional CTEsを分けて書く
  5. (import) CTEsでは必要なものを明記する
  6. joinしたカラムにはjoin元のCTEsを明記する
KKaichi commented 1 month ago

News Recommendation with Category Description by a Large Language Model

概要

手法

ユーザメッセージ

ニュースカテゴリはtv-golden-globesです。

出力

TV-Golden Globesカテゴリは、特にテレビ業界におけるゴールデングローブ賞に関連するニュースに焦点を当てています。これには、ノミネート、受賞者、式典での注目すべき瞬間、反応、そしてイベントを取り巻く論争やハイライトが含まれます。このイベントはテレビにおける優秀さを称えます。

感想

Hayashi-Yudai commented 1 month ago

機械学習モデルの解釈を営業にわかりやすく説明するための機械学習モデルを作った

営業の人に機械学習モデルを売ってもらうためにモデルの解釈性について考えた経験について紹介されている。

nogawanogawa commented 1 month ago

データ基盤のためのリーダブルSQL

上で書かれてたので割愛。非常に参考になる。

Chronon — A Declarative Feature Engineering Framework

Airbnbの特徴量エンジニアリングフレームワークの話。 (公式ドキュメントとか見ると実質Feature Storeのように見える)

https://github.com/airbnb/chronon

こういった課題に対して、複雑かつデータソースごとの変換を記述せず、Accuracy パラメータによって変換による分布の形状を選べるようにしたのが特徴。

image

過去5時間以内にユーザーによって閲覧された回数を集計する例

image

特徴量は、低レイテンシのエンドポイントを介するものもあれば、一定の間隔でデータを更新するのが正しいものもある。これらの特性はAccuracyパラメータで設定することでどれくらいの不確かさを許容するかを設定していくらしい。

「OSSになったよ」というブログはこちら: https://medium.com/airbnb-engineering/chronon-airbnbs-ml-feature-platform-is-now-open-source-d9c4dba859e8