dapivei / data-product-architecture-final-project

Contiene la presentación del proyecto de datos realizado a propósito de la materia "Data Product Architecture": 1) Producto de datos funcional: Video de corrida final del producto de datos; 2) Presentación de "front"; 3) Entrega de documento final en repositorio; 4) Último commit del proyecto
BSD 2-Clause "Simplified" License
1 stars 1 forks source link

Corregir y/o ordenar metadata #27

Open C1587S opened 4 years ago

C1587S commented 4 years ago

Algunos metadatos que aparecen en lista deben ser incluidos y otros deben ser organizados.

C1587S commented 4 years ago

Por ejemplo: s3://prueba-nyc311/modelos/randomForestClassifier/RFC_nestimatorsinteger100_criteriongini.pkl

dapivei commented 4 years ago

Task:

  • model_group: Una combinación única de las características de un modelo: tipo de modelo, hiperparámetros del modelo, random seed, features utilizados. Cada uno de esos model group son considerados 1 experimento.
  • models: Cada model group o experimento está entrenado con un set de datos de entrenamiento, este fit se queda almacenado en esta tabla.
  • predictions: Las predicciones generadas con la combinación de experimento (model group) y set de entrenamiento (model) se almacenan en esta tabla.
  • evaluations: Las métricas de desempeño off-line se quedan almacenadas en esta tabla, así como el tiempo que tardó en entrenarse!
  • feature_importances: Esta tabla almacena la importancia de las variables ocupadas en el experimento.
  • individual_importances: Esta tabla almacena la importancia de variable para cada predicción. No necesariamente tendremos que ocupar todas, o todos los campos asociados. En nuestro caso las primeras 4 será necesarias.

Por ejemplo, faltaría metadata de tiempo que tardó en entrenarse el modelo, accuracies en el training, validation y test, entre otros... esto pensando sobretodo en los fronts que se generarán posteriormente con los metadatos que fueron guardados.