[2022/02/24]推薦・機械学習勉強会

yu-ya4 commented 2 years ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は松村(https://twitter.com/yu__ya4) まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

What

Wantedly では隔週木曜日に

推薦の評価指標について議論したい
〇〇っていうライブラリ / フレームワークを導入してみたい
他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: #130

hakubishin3 commented 2 years ago

Image pretraining(huggingface/transformers)

SimMIM や MAE といった image pretrain が手軽にできるスクリプトが追加された。 https://github.com/huggingface/transformers/tree/master/examples/pytorch/image-pretraining

TransformerモデルへのMC Dropoutの適用

推論時にもDropoutを適用することで予測値の分布を近似的に求める手法を紹介している記事。

dropout の割合をどうやって設定するのがベストだろう。

DAアルゴリズム（Gale-Shapleyアルゴリズム）の解説

かんたんな例を踏まえながら紹介されていてとてもわかり易かった。

日本語自然言語処理のData Augmentationライブラリdaajaを作りました

文書分類タスク向け、固有表現抽出向けの Data Augmentation 手法が実装されている。とても使い勝手が良さそう。

Hayashi-Yudai commented 2 years ago

なぜあなたのA/Bテストはうまくいくのか？A/Bテストの分析で注意すること

https://developers.cyberagent.co.jp/blog/archives/33310/

A/Bテストを行うときにどのような指標を選べばいいか、注意点をまとめたブログ

実務でA/Aテストをすると失敗することが多々ある
例えば、CTRについてインプレッションベースで計算すると、ヘビーユーザーの影響が強く入るためにA/Aテストが失敗することがある
- ユーザーベースにしてヘビーユーザーとライトユーザーの重みを調整する
- デルタメソッドによって漸近分散を求める
- クラスターロバスト標準誤差を利用
  - クラスター内での誤差項間の相関を許した標準誤差
- どれを利用するかはプロダクトの方針を考慮して決める（Dynalistではデルタメソッドを利用）

nogawanogawa commented 2 years ago

時系列クラスタリングで比較する2群をそろえた話〜営業活動の効果検証事例

ある機能をリリースした後、リリースの前後で売上データに関する介入効果を比較する話。

ポイントとしては売上データ（時系列データ）を時系列クラスタリングし、傾向が似たアカウントごとにまとめる
クラスタごとに、対照群アカウントの介入前後における売上変化率を算出し、その中央値を用いて差分の差分法で介入効果を推計

アカウント全体で見ると効果が過剰に見積もられたり、その逆も起こりうる。似た傾向のアカウントのグループごとに指標を比較することで、傾向の異なるアカウントを平等に扱って評価している。

zerebom commented 2 years ago

機械学習の推論WebAPIの実装をテンプレート化して使い回せるようした

以下のモダンなライブラリで推論WebAPIをテンプレート化した記事

Poetry: パッケージ管理
FastAPI: Webフレームワーク
Uvicorn: Webサーバ
Pydantic: データバリデーション

Spacyからモデルを読み込み、Entity classに詰めて返す。

class SpacyGinzaNERModel(BaseMLModel):
    def __init__(self, ginza_model_name: str = "ja_ginza") -> None:
        self.nlp = spacy.load(ginza_model_name)

    def predict(self, input_text: str) -> List[Entity]:
        doc = self.nlp(input_text)

        return [Entity(text=e.text, start_char=e.start_char, end_char=e.end_char, label=e.label_) for e in doc.ents]

class Entity(BaseModel):
    text: str = Field(..., title="Text", description="Entity Text.", example="Apple")
    start_char: int = Field(
        ..., title="Start char", description="The character offset for the start of the span.", example=0
    )
    end_char: int = Field(..., title="End char", description="The character offset for the end of the span.", example=4)
    label: str = Field(..., title="Label", description="Entity label.", example="ORG")

PydanticのBaseModelを継承することで、レスポンスをパース・バリデーションをしてくれそう。

参考: https://note.com/npaka/n/nc608b9392300

「自動で経理」の推論エンジンってどんなやつ？

freeeの自動で経理の推論エンジンについて紹介した記事。

Arcfaceお試し(pytorch metric learning)

Arcfaceの理論・実装を紹介している。距離学習実装したくなった時、参考にします

yu-ya4 commented 2 years ago

データエンジニアリングの羅針盤

『累計参加者8,500名！ #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤』 https://speakerdeck.com/yuzutas0/20220224

これまでのイベントの集大成的まとめスライド。各社の経験からくる知見が集まっていて高速道路っぽい。

累計参加者8_500名！__DataEngineeringStudy_の43スライドから学ぶ、データエンジニアリングの羅針盤___20220224_-_Speaker_Deck

（N回目の）史上最大のオープンソース言語モデル GPT-NeoX-20B

去年の６月に、オープンソースで使える最強の言語モデル GPT-J-6B (60億パラメーター) を紹介しました。そこから８ヶ月ほどしか経っていませんが、草の根的な AI 研究者・開発者コミュニティである EleutherAI によって、さらに大規模なオープンソースの言語モデル GPT-NeoX-20B が発表されました。

訓練データに「、言語モデル訓練用の巨大 (825 GB) コーパス "The Pile" (Gao et al., 2020)」を利用している点が一番の GPT-3 との diff とのこと。

トークナイザもええ感じで変更して、GPT-2 のトークナイザより 10% ほどトークン数を減らした。スペースとかいい感じで扱えるっぽい。

GPT_NeoX_20B_pdf

精度もええ感じ。特に数学タスクでは GPT-3(175B)の30倍小さいモデルなのに性能を上回る。

『Announcing GPT-NeoX-20B』
- https://blog.eleuther.ai/announcing-20b/
Black et al., 2022. GPT-NeoX-20B: An Open-Source Autoregressive Language Model
- http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf
『史上最大のオープンソース言語モデル GPT-NeoX-20B』
- https://ja.stateofaiguides.com/20220222-language-models/

wantedly / machine-learning-round-table