wantedly / machine-learning-round-table

Gather around the table, and have a discussion to catch up the latest trend of machine learning 🤖
https://www.wantedly.com/projects/391912
308 stars 2 forks source link

[2022/02/24]推薦・機械学習勉強会 #132

Open yu-ya4 opened 2 years ago

yu-ya4 commented 2 years ago

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は松村(https://twitter.com/yu__ya4) まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週木曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。 この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう! 会の間に話した内容もここにメモしましょう!

prev: #130

hakubishin3 commented 2 years ago

Image pretraining(huggingface/transformers)

SimMIM や MAE といった image pretrain が手軽にできるスクリプトが追加された。 https://github.com/huggingface/transformers/tree/master/examples/pytorch/image-pretraining

TransformerモデルへのMC Dropoutの適用

推論時にもDropoutを適用することで予測値の分布を近似的に求める手法を紹介している記事。

dropout の割合をどうやって設定するのがベストだろう。

DAアルゴリズム(Gale-Shapleyアルゴリズム)の解説

かんたんな例を踏まえながら紹介されていてとてもわかり易かった。

日本語自然言語処理のData Augmentationライブラリdaajaを作りました

文書分類タスク向け、固有表現抽出向けの Data Augmentation 手法が実装されている。とても使い勝手が良さそう。

Hayashi-Yudai commented 2 years ago

なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること

https://developers.cyberagent.co.jp/blog/archives/33310/

A/Bテストを行うときにどのような指標を選べばいいか、注意点をまとめたブログ

nogawanogawa commented 2 years ago

時系列クラスタリングで比較する2群をそろえた話 〜 営業活動の効果検証事例

ある機能をリリースした後、リリースの前後で売上データに関する介入効果を比較する話。

アカウント全体で見ると効果が過剰に見積もられたり、その逆も起こりうる。 似た傾向のアカウントのグループごとに指標を比較することで、傾向の異なるアカウントを平等に扱って評価している。

zerebom commented 2 years ago

機械学習の推論WebAPIの実装をテンプレート化して使い回せるようした

以下のモダンなライブラリで推論WebAPIをテンプレート化した記事

Spacyからモデルを読み込み、Entity classに詰めて返す。

class SpacyGinzaNERModel(BaseMLModel):
    def __init__(self, ginza_model_name: str = "ja_ginza") -> None:
        self.nlp = spacy.load(ginza_model_name)

    def predict(self, input_text: str) -> List[Entity]:
        doc = self.nlp(input_text)

        return [Entity(text=e.text, start_char=e.start_char, end_char=e.end_char, label=e.label_) for e in doc.ents]
class Entity(BaseModel):
    text: str = Field(..., title="Text", description="Entity Text.", example="Apple")
    start_char: int = Field(
        ..., title="Start char", description="The character offset for the start of the span.", example=0
    )
    end_char: int = Field(..., title="End char", description="The character offset for the end of the span.", example=4)
    label: str = Field(..., title="Label", description="Entity label.", example="ORG")

PydanticのBaseModelを継承することで、レスポンスをパース・バリデーションをしてくれそう。

参考: https://note.com/npaka/n/nc608b9392300

「自動で経理」の推論エンジンってどんなやつ?

freeeの自動で経理の推論エンジンについて紹介した記事。

Arcfaceお試し(pytorch metric learning)

Arcfaceの理論・実装を紹介している。 距離学習実装したくなった時、参考にします

yu-ya4 commented 2 years ago

データエンジニアリングの羅針盤

『累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤』 https://speakerdeck.com/yuzutas0/20220224

これまでのイベントの集大成的まとめスライド。各社の経験からくる知見が集まっていて高速道路っぽい。

累計参加者8_500名!__DataEngineeringStudy_の43スライドから学ぶ、データエンジニアリングの羅針盤___20220224_-_Speaker_Deck

(N回目の)史上最大のオープンソース言語モデル GPT-NeoX-20B

去年の6月に、オープンソースで使える最強の言語モデル GPT-J-6B (60億パラメーター) を紹介しました。そこから8ヶ月ほどしか経っていませんが、草の根的な AI 研究者・開発者コミュニティである EleutherAI によって、さらに大規模なオープンソースの言語モデル GPT-NeoX-20B が発表されました。

訓練データに「、言語モデル訓練用の巨大 (825 GB) コーパス "The Pile" (Gao et al., 2020)」を利用している点が一番の GPT-3 との diff とのこと。

トークナイザもええ感じで変更して、GPT-2 のトークナイザより 10% ほどトークン数を減らした。スペースとかいい感じで扱えるっぽい。

GPT_NeoX_20B_pdf

精度もええ感じ。特に数学タスクでは GPT-3(175B)の30倍小さいモデルなのに性能を上回る。