Open chimuichimu opened 1 month ago
RAG におけるドキュメントの Embedding の保管で、データ容量が大きくなってしまう
精度の影響を以下の3つの手法で確認
シンプルな1.の手法では全体的に精度が悪く、ドキュメントのサイズが大きくなった時の下がり幅も大きかった。一方で3.の rerank を入れた手法では元の embedding と同程度の精度が出せることが確認できた。
Google I/O で展示された Infinite Nature という生成的推薦とマルチモーダル意味検索デモについての記事
データ基盤は継続的に運用してバグを発見・修正する必要がある そのために管理しやすいSQLを書くためのポイントが紹介されている
あなたは素晴らしいニュースライターです。読者に記事に関するより詳細で有益な情報を提供することで支援します。ユーザーが「The news category is category」という形式でニュース記事の特定のカテゴリを入力します。入力されたカテゴリについて約50語で詳細な説明を英語で提供してください。可能な限り、引用符(")やアポストロフィ(')、アスタリスク(*)、および同様の強調のための記号の使用を避けてください。
ユーザメッセージ
ニュースカテゴリはtv-golden-globesです。
出力
TV-Golden Globesカテゴリは、特にテレビ業界におけるゴールデングローブ賞に関連するニュースに焦点を当てています。これには、ノミネート、受賞者、式典での注目すべき瞬間、反応、そしてイベントを取り巻く論争やハイライトが含まれます。このイベントはテレビにおける優秀さを称えます。
営業の人に機械学習モデルを売ってもらうためにモデルの解釈性について考えた経験について紹介されている。
上で書かれてたので割愛。非常に参考になる。
Airbnbの特徴量エンジニアリングフレームワークの話。 (公式ドキュメントとか見ると実質Feature Storeのように見える)
https://github.com/airbnb/chronon
こういった課題に対して、複雑かつデータソースごとの変換を記述せず、Accuracy パラメータによって変換による分布の形状を選べるようにしたのが特徴。
過去5時間以内にユーザーによって閲覧された回数を集計する例
特徴量は、低レイテンシのエンドポイントを介するものもあれば、一定の間隔でデータを更新するのが正しいものもある。これらの特性はAccuracyパラメータで設定することでどれくらいの不確かさを許容するかを設定していくらしい。
「OSSになったよ」というブログはこちら: https://medium.com/airbnb-engineering/chronon-airbnbs-ml-feature-platform-is-now-open-source-d9c4dba859e8
Why
推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!
発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3、角川/nogawanogawa、林/python_walker まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!
What
Wantedly では隔週水曜日に
といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。
話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!
prev: #247