Esperando que estén bien, quería resolver unas dudas:
¿Estaría bien entrenar un modelo con todos los datos (todos los servicios y rangos horarios) y testearlo con esos mismos datos, para luego realizar una predicción con un data_frame filtrando por servicio y rango horario?
¿Para presentar la predicción (del df_filtrado) basta con imprimirla? (son muchos resultados distintos ya que consideré variables que pueden cambiar para cada expedición) ¿O es mejor sacar un promedio del vector predicho?
Si te refieres a que tu set de entrenamiento sean todos los datos y luego testear con los mismos datos el modelo resultante, eso sería incorrecto, ya que el modelo solo estaría "aprendiendo todas las respuestas" y no los patrones necesarios para realizar una adecuada predicción. Lo adecuado es que los datos con los que testeas al modelo no sean los mismo que con los que lo entrenaste.
Sí, solo sería necesario imprimir los resultados. De cualquier modo confirmaré esto con el profesor. También no olvidar que junto con los resultados es necesario incluir un análisis de estos y procedimiento completo de preparación de los datos, además del entrenamiento del modelo predictivo.
Esperando que estén bien, quería resolver unas dudas: