work-in-progress-fm / reading-group

Geek Reading Group
0 stars 0 forks source link

[2020/11/6] 論文読み会 #10

Open takapy0210 opened 3 years ago

takapy0210 commented 3 years ago

論文やテックブログの記事を中心に互いに興味のある技術領域について知識を共有するゆるめの会です。 個々人の知識を縦横に広げてレベルアップをするのが目的です。

Main contents

TFX: A TensorFlow-Based Production-Scale Machine LearningPlatform

Others

takapy0210 commented 3 years ago

TFX: A TensorFlow-Based Production-Scale Machine LearningPlatform

Meta

どんなもの?(3行ぐらいで)

TensorFlow Extended (TFX) is ...

機械学習パイプラインの設計思想がかなり参考になると思い読んだ。

機械学習の運用フレームワークに必要なもの

キモはどこ?

image

1. Data Analysis

ここでは機械学習パイプラインに投入するデータにについて、様々な分析を行う。データに含まれる特徴量の数や、特徴量ごとの欠損値の有無、各特徴量の各種統計量を計算し記録することで、入力されたデータがどのような分布をしているのかを把握する

2. Data Transformation

ここではいわゆる前処理で、例えば、カテゴリカルな値にIDを割り振るといった処理はここに含まれる。このコンポーネントを学習時と推論時に使うことで、推論時には学習時と違う処理が行われてしまってうまく動かないことを防げる。

3. Data Validation

入力されているデータに対しての検証を行う。機械学習パイプラインにはデータが継続的に投入されるので、様々な事情でデータの形式や分布は変わってくる。このコンポーネントでは予めデータのスキーマを定めておくことで、新たに投入されたデータがそのスキーマに合致しているかどうかを検証する。 image

4. Trainer

ここでは機械学習モデルを訓練させる。

5. Model Evaluation & Validation

ここではモデルの評価と妥当性の確認を行う。過去データを対象にしたオフラインテストを行い AUC などの指標が適切な範疇にあるかを評価する。また、カナリアリリースを行い、モデルが適切な振る舞いをしているかモニタリングする。

6. Serving

ここではモデルを本番環境にデプロイする。

どうやって有効だと検証した?

TFXをGoogle Playアプリストアに導入し、デプロイまでの時間を短縮することで、アプリのインストール率を2%向上させることに成功しています。(たくさん実験できた結果、ってことかな)

自分なりのアウトプット・どんなことに使えそうか

takapy0210 commented 3 years ago