Las herramientas de desarrollo interactivo como Jupyter prevalecen entre los científicos de datos porque proporcionan un entorno para realizar transformaciones de datos interactivamente. Sin embargo, al implementar un proyecto, se debe refactorizar utilizando un entorno para producción como Airflow o Argo; esto hace que los científicos de datos tengan que mover el código de sus notebooks a estas herramientas de producción. Además, los científicos de datos tienen que dedicar tiempo a aprender una herramienta desconocida y a escribir código extra para construir el "pipeline" de producción, lo que retrasa el proceso de despliegue.
Inspirado en la filosofía de "convención sobre configuración" de Ruby on Rails, Ploomber resuelve este problema proporcionando:
Un orquestador de flujo de trabajo que infiere automáticamente el orden de ejecución de las tareas mediante análisis estático.
Una plantilla para iniciar proyectos rápidamente.
Un entorno de desarrollo integrado con Jupyter.
Exportación de proyectos a sistemas de producción (Airflow y Argo) sin cambios de código.
Ploomber ya se utiliza en producción en algunas empresas y ha estado en desarrollo durante más de un año.
Objetivo:
Describir los retos a los que se enfrenta un científico de datos para llevar sus modelos a producción
Presentar Ploomber como una herramienta para facilitar el despliegue de modelos de ML
Breve reseña sobre ti:
Eduardo está interesado en construir herramientas que faciliten el desarrollo de productos de datos. Con ese fin desarrolló Ploomber, una biblioteca de Python de código abierto para ciencia de datos reproducible que se presentó en JupyterCon 2020. Eduardo tiene una maestría en ciencia de datos por la Universidad de Columbia, donde realizó investigaciones en neurociencia computacional. Comenzó su carrera en ciencia de datos en 2015 en el Centro de ciencia de datos y políticas públicas de la Universidad de Chicago. Actualmente trabaja como científico de datos en Boston, aplicando machine learning en la industria financiera.
Nombre de la propuesta: De desarrollo a producción en un instante con Ploomber
Descripción:
Repositorio
Las herramientas de desarrollo interactivo como Jupyter prevalecen entre los científicos de datos porque proporcionan un entorno para realizar transformaciones de datos interactivamente. Sin embargo, al implementar un proyecto, se debe refactorizar utilizando un entorno para producción como Airflow o Argo; esto hace que los científicos de datos tengan que mover el código de sus notebooks a estas herramientas de producción. Además, los científicos de datos tienen que dedicar tiempo a aprender una herramienta desconocida y a escribir código extra para construir el "pipeline" de producción, lo que retrasa el proceso de despliegue.
Inspirado en la filosofía de "convención sobre configuración" de Ruby on Rails, Ploomber resuelve este problema proporcionando:
Ploomber ya se utiliza en producción en algunas empresas y ha estado en desarrollo durante más de un año.
Objetivo:
Breve reseña sobre ti:
Eduardo está interesado en construir herramientas que faciliten el desarrollo de productos de datos. Con ese fin desarrolló Ploomber, una biblioteca de Python de código abierto para ciencia de datos reproducible que se presentó en JupyterCon 2020. Eduardo tiene una maestría en ciencia de datos por la Universidad de Columbia, donde realizó investigaciones en neurociencia computacional. Comenzó su carrera en ciencia de datos en 2015 en el Centro de ciencia de datos y políticas públicas de la Universidad de Chicago. Actualmente trabaja como científico de datos en Boston, aplicando machine learning en la industria financiera.
Correo electrónico: eduardo@ploomber.io