IIC2115 / Syllabus-2020-2

Repositorio oficial del curso IIC2115 - Programación como Herramienta para la ingeniería - Segundo Semestre 2020
11 stars 29 forks source link

Duda Materia y de Programación #136

Closed alejoeyzaguirre closed 3 years ago

alejoeyzaguirre commented 3 years ago

Hola! De clases entendí que si tu criterio es reemplazar con la media los datos vacíos de una columna, entonces debes hacer los dos siguientes pasos:

  1. Calculas la media de esa columna pero SOLO EN LA DATA DE ENTRENAMIENTO.
  2. Reemplazas los NaN, en la columna de la base de datos de entrenamiento Y de testeo, con la media calculada en el paso 1. ¿Esta esto bien?

Por lo tanto, en la Actividad Práctica 04, para reemplazar datos vacíos; debo primero dividir la base de datos en data de entrenamiento y de testeo, luego calcular la media de la data de entrenamiento y finalmente reemplazar con la media en la data de Entrenamiento y de Testeo.(?)

Si todo lo anterior es cierto, ¿Cómo se pueden reemplazar los datos vacíos de la Data de Testeo, con la media de la base de datos de Entrenamiento?

Muchas gracias, y perdón por la hora!

Jamidd commented 3 years ago

Para tu primera pregunta, Si. Para tu segunda pregunta, hasta donde yo se no hay un criterio fijo. En general si lo que haces tiene algún tipo de criterio/fundamento debería estar ok. Saludos, Jaime.

halobel commented 3 years ago

Hola, siempre lo que vale es lo de entrenamiento, pq cuando recibes un nuevo registro para clasificar para el cual no tienes la clase, no tienes como calcular una media (pq es solo un ejemplo que además no tiene el valor de esa columna potencialmente). Por lo tanto, el procedimiento es tal como dices, divides primero en entrenamiento/test, tomas decisiones en el de entrenamiento y rellenas los valores en entrenamiento y test usando el criterio definido en entrenamiento.

alejoeyzaguirre commented 3 years ago

Muchas gracias a los dos!