sakamomo554101 / study

勉強用のリポジトリ(記事とかのリンクを貼ったりしていく)
0 stars 0 forks source link

kedroの疑問点を解決する #3

Open sakamomo554101 opened 3 years ago

sakamomo554101 commented 3 years ago
sakamomo554101 commented 3 years ago

https://kedro.readthedocs.io/en/stable/10_deployment/03_distributed.html

分散処理まわりについて

sakamomo554101 commented 3 years ago

https://kedro.readthedocs.io/en/stable/04_kedro_project_setup/01_dependencies.html

requirements.inを更新して、txtを作成して、installする感じ

sakamomo554101 commented 3 years ago

https://kedro.readthedocs.io/en/stable/10_deployment/07_aws_batch.html

AWS Batch上で動かす例

sakamomo554101 commented 3 years ago

なるほどー、マネージドサービス上でパイプラインを動かす場合、Runnerを拡張すれば良い、という発想になるのか。

sakamomo554101 commented 3 years ago

https://zenn.dev/nameless_gyoza/articles/argo-wf-20200220 argoって、k8sのworkflowツールみたいな感じか。(kubeflowを使えばいいのかもしれんが・・)

sakamomo554101 commented 3 years ago

https://kedro.readthedocs.io/en/latest/10_deployment/02_single_machine.html single machine deploymentだから、当然パイプライン処理を一つのVM含むマシン上での実行となる。

sakamomo554101 commented 3 years ago

https://kedro.readthedocs.io/en/latest/10_deployment/01_deployment_guide.html distributed deploymentで、ノード単位かわからんが、パイプラインを分割して、分散処理できそうに見える。

sakamomo554101 commented 3 years ago

https://kedro.readthedocs.io/en/latest/10_deployment/03_distributed.html#convert-your-kedro-pipeline-into-targeted-platform-s-primitives

Pipeline.node_dependenciesって、なんだ?

sakamomo554101 commented 3 years ago

https://kedro.readthedocs.io/en/latest/10_deployment/03_distributed.html#parameterise-the-runs nodeごとに実行できるのはわかったが、結果をどうマージするんだ・・・?

sakamomo554101 commented 3 years ago

https://github.com/quantumblacklabs/kedro/discussions/795

sakamomo554101 commented 3 years ago

https://discourse.kedro.community/t/kedro-pipelines-few-number-of-big-nodes-or-large-number-of-small-nodes/351 関連してそうで、してないかも? (kedroのnodeをそれぞれのコンテナーなりで実行すること)

sakamomo554101 commented 3 years ago

https://www.kubeflow.org/docs/components/pipelines/overview/pipelines-overview/ kubeflowについてもちょっと調べてみる。 (kedro -> kubeflowで動作させることで、各ノードが別々のコンテナなり環境で分散処理できるかも)

sakamomo554101 commented 3 years ago

kubeflowでのオペレーター作成時に、パイプラインの各ノードがoperatorと対応していれば、docker コンテナがノード単位でできるかもしれない。 https://github.com/kubeflow/pipelines/blob/master/samples/core/xgboost_training_cm/xgboost_training_cm.py

sakamomo554101 commented 3 years ago

https://kedro.readthedocs.io/en/latest/10_deployment/06_kubeflow.html#create-a-workflow-spec 上記見ると、下記コードで、kedroのnodeをkubeflowのdsl.ContainerOpに変換して、パイプラインとしているので、 node単位でコンテナを構築するような構成となる。