[2022/07/14]推薦・機械学習勉強会

yu-ya4 commented 2 years ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は松村(https://twitter.com/yu__ya4) まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

What

Wantedly では隔週木曜日に

推薦の評価指標について議論したい
〇〇っていうライブラリ / フレームワークを導入してみたい
他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: #149

Hayashi-Yudai commented 2 years ago

日本語ニュース分類から見る多言語モデル

Stockmarkのtech blogの記事。多言語モデルを日本語ニュース記事を使ってfine-tuneしたときにニュース記事のタイトル分類の性能がどう変化するか調べたもの。

多言語モデルは、データの少ない言語においては単言語モデルよりも性能が良いことがわかってきて注目を集めている。一方で日本語のような、英語と文法が大きく異なる言語においては性能が低いこともわかってきた。この記事では、

日本語のニュース記事でfine-tuneしたモデル
英語のニュース記事でfine-tune してから日本語のニュース記事でfine-tuneしたモデル

を比較している。

各クラス30件ほどのデータがあれば、英語ニュース記事でfine-tuningの意味はあまりない

日本語データセットで学習した後のモデルを使って英語データセットの性能を検証した結果、degradationは起きるが 5 %ほどの性能劣化にとどまることが紹介されている

zerebom commented 2 years ago

「データビジュアライゼーションの基礎」のまとめグラフ編

データビジュアライゼーションの基礎がためになったのでZennにまとめました
量・分布・内訳・関係を表すグラフの使い分け, tipsを紹介しています

nogawanogawa commented 2 years ago

SQL で Matrix Factorization を実装しました

SQLでMFを実装した話。

料金体系をいじらずになんとかしたい！と考えたところ、 BigQuery には、 Scriptingという、 LOOP とか IF などの制御構文、 DECLARE による変数定義などが使える機能があります。これを使えば、 SGD とか実装できそうだな、と思い当たってコリコリと実装してみたのが最後に記載した SQL です。

制約はあるけど、勉強のネタとしては面白かった👀

普通のプロダクトのテストと機械学習を含んだプロダクトのテストの違い

https://speakerdeck.com/mineo_matsuya/difference-between-testing-ordinary-software-and-testing-software-using-machine-learning

機械学習はテストオラクル問題があるが、それに対応するためにどんなアプローチがあるかの紹介。

メタモルフィックテスティング
ニューロンカバレッジテスティング
最大安全半径
網羅検証

機械学習×テストはあまり知らない世界だったので聞いてて面白かった。

wantedly / machine-learning-round-table