Exploratorio-DCC-PUC / Syllabus-2018-2

Página principal del curso IIC1005 - Computación: Ciencia y Tecnología del Mundo Digital en su versión 2018-2.
9 stars 13 forks source link

Parte 1 TG2 #79

Closed cncosta closed 6 years ago

cncosta commented 6 years ago

En la parte uno nos piden tratar los datos faltantes y normalizar los datos. En la parte de eliminar los datos faltantes ocupo la función .dropna() que debería eliminar todas las filas que tienen espacios vacíos o nulos, luego ocupo la funcion sklearn.decomposition para volver todos los datos a 2 dimensiones y lo grafico definiendo como clase la calidad del vino, pero en el gráfico aparecen valores de la calidad de vino que son "null", como elimino esos "null" para que no aparezcan? PD: ya revisamos esto en la ayudantía y no lo pudimos solucionar, por alguna razón se inventan datos NaN en la calidad. Vamos a crear un issue en nuestro repositorio para que puedan ver el código que usamos.

captura de pantalla 2018-10-10 a la s 15 40 06

Mdelaf commented 6 years ago

Este problema ocurre cuando creamos una nueva columna en un DataFrame a partir de la columna de otro DataFrame. Osea, si hacemos:

df1["nueva_col"] = df2["col"]

Si los índices de ambos DF no coinciden, entonces aparecerán valores nulos en df1["nueva_col"]. Para que esto no ocurra, y siempre y cuando df1 y df2 sean del mismo largo, podemos hacer:

df1["nueva_col"] = df2["col"].values

Y así evitar el problema de los índices.

Arcoirisky commented 6 years ago

¿A qué se refiere con eso? Perdón pero no logro entender bien la respuesta xD

Mdelaf commented 6 years ago

El compañero que hizo la pregunta se reunió con nosotros y viendo su código llegamos a la conclusión que todo el problema ocurría al copiar una columna desde otro DataFrame. Al hacer la copia aparecían valores nulos en la columna copiada, similar a lo que se preguntó en #81.

La respuesta explica por qué aparecen los valores nulos y cómo solucionarlo, pero es cierto que faltó entregar más contexto.

Saludos.