Open takapy0210 opened 3 years ago
機械学習パイプラインの設計思想がかなり参考になると思い読んだ。
ここでは機械学習パイプラインに投入するデータにについて、様々な分析を行う。データに含まれる特徴量の数や、特徴量ごとの欠損値の有無、各特徴量の各種統計量を計算し記録することで、入力されたデータがどのような分布をしているのかを把握する
ここではいわゆる前処理で、例えば、カテゴリカルな値にIDを割り振るといった処理はここに含まれる。このコンポーネントを学習時と推論時に使うことで、推論時には学習時と違う処理が行われてしまってうまく動かないことを防げる。
入力されているデータに対しての検証を行う。機械学習パイプラインにはデータが継続的に投入されるので、様々な事情でデータの形式や分布は変わってくる。このコンポーネントでは予めデータのスキーマを定めておくことで、新たに投入されたデータがそのスキーマに合致しているかどうかを検証する。
ここでは機械学習モデルを訓練させる。
ここではモデルの評価と妥当性の確認を行う。過去データを対象にしたオフラインテストを行い AUC などの指標が適切な範疇にあるかを評価する。また、カナリアリリースを行い、モデルが適切な振る舞いをしているかモニタリングする。
ここではモデルを本番環境にデプロイする。
TFXをGoogle Playアプリストアに導入し、デプロイまでの時間を短縮することで、アプリのインストール率を2%向上させることに成功しています。(たくさん実験できた結果、ってことかな)
論文やテックブログの記事を中心に互いに興味のある技術領域について知識を共有するゆるめの会です。 個々人の知識を縦横に広げてレベルアップをするのが目的です。
Main contents
TFX: A TensorFlow-Based Production-Scale Machine LearningPlatform
Others