Open C1587S opened 4 years ago
pickles
en S3 para tener más control de los modelos entrenados.Por ejemplo: s3://prueba-nyc311/modelos/randomForestClassifier/RFC_nestimatorsinteger100_criteriongini.pkl
Task:
model_group
: Una combinación única de las características de un modelo: tipo de modelo, hiperparámetros del modelo, random seed, features utilizados. Cada uno de esos model group son considerados 1 experimento.models
: Cada model group o experimento está entrenado con un set de datos de entrenamiento, este fit se queda almacenado en esta tabla.predictions
: Las predicciones generadas con la combinación de experimento (model group) y set de entrenamiento (model) se almacenan en esta tabla.evaluations
: Las métricas de desempeño off-line se quedan almacenadas en esta tabla, así como el tiempo que tardó en entrenarse!feature_importances
: Esta tabla almacena la importancia de las variables ocupadas en el experimento.individual_importances
: Esta tabla almacena la importancia de variable para cada predicción. No necesariamente tendremos que ocupar todas, o todos los campos asociados. En nuestro caso las primeras 4 será necesarias.
Por ejemplo, faltaría metadata de tiempo que tardó en entrenarse el modelo, accuracies en el training, validation y test, entre otros... esto pensando sobretodo en los fronts que se generarán posteriormente con los metadatos que fueron guardados.
Algunos metadatos que aparecen en lista deben ser incluidos y otros deben ser organizados.
Faltantes (editar):
Organizar los metadatos de los modelos.