Open zerebom opened 1 year ago
CREATE SEARCH INDEX my_index ON pdf_text_extract(ALL COLUMNS);
SELECT * FROM pdf_text_extract WHERE SEARCH(pdf_text, "Google");
Twitterでのデータ品質担保の取り組み
CI/CD時にyamlファイルがGCSにアップロードされる。データが来たときにはそのyamlに基づいてDAGが生成されてテストが走る。テスト結果はPub/Sub、Dataflowを通してBigQueryに格納される。データ品質の自動テストを導入することで新しい処理機能のロールアウトを20%削減したらしい。
コマンドライン上でSQLっぽい感じでCSVを分析できるツール。
SELECT
date.fromtimestamp(purchase_ts) AS purchase_date,
sum_agg(price * quantity) AS total
FROM csv('my_purchases.csv')
WHERE department.upper() == 'IT' and purchase_ts is not Null
GROUP BY 1
ORDER BY 1
TO json
出力をファイルに書き込んだり、matplotcliを使って描画したりできるのは便利そう。
https://arxiv.org/abs/2209.07663
Zhuoran Liu, Leqi Zou, Xuan Zou, Caihua Wang, Biao Zhang, Da Tang, Bolin Zhu, Yijie Zhu, Peng Wu, Ke Wang, Youlong Cheng
ORSUM@ACM RecSys 2022
産業界の推薦システムで深層学習の能力を活用しようとすると、実世界のユーザー行動から得られるデータの特徴と問題に悩まされる。 これらのデータは、NLPやCVのような従来のディープラーニングの問題とは2つの点で大きく異なっている。
リアルタイムの顧客のフィードバックとインタラクションをモデルに反映
Why
推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!
発信のため、ここは public にしてあります。外部からの参加をご希望の方は樋口(https://twitter.com/zerebom_3) まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!
What
Wantedly では隔週木曜日に
といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。
話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!
prev: #169