Exploratorio-DCC-PUC / Syllabus

Página principal del curso IIC1005 - Computación: Ciencia y Tecnología del Mundo Digital en su versión 2020-1
65 stars 45 forks source link

Dudas mapeo de datos categóricos TG2 #235

Closed fran-gl closed 4 years ago

fran-gl commented 4 years ago

Hola! En la ayudantía de la TG2 se habló de que debíamos mapear los datos categóricos a datos numéricos para luego poder usarlos para entrenar los modelos. Me surgieron dos dudas al respecto.

  1. ¿Es necesario transformar los datos de la editora del juego a datos numéricos aún cuando esta es la clase que se quiere predecir? ¿O se debe dejar con los datos categóricos que se nos entregan?
  2. ¿El mapeo de los datos se debe hacer antes de normalizar? ¿O en qué momento? Muchas gracias de antemano.
nicobuzeta commented 4 years ago

No soy ayudante pero ojala te pueda ayudar algo.

  1. Si estas usando un clasificador, los datos no deberia importar si cambias los labels a numerico o no. Esto es debido a que scikit-learn automaticamente los cambia a numerico. Mas info El link del stackoverflow esta malo, pero efectivamente se puede ver en la linea 1823.
  2. No estoy seguro a que te refieres con mapeo, estas hablando de LabelEncoder, OneHotEncoder,etc?
AstridESMJ commented 4 years ago

Hola,

Para la tarea debes convertir la editora en "numérico", la idea es que sepas cuántas clases son y porque independiente que scikitlearn los convierta automáticamente, la idea es que aprendan que parte del procesamiento está la etapa de codificación. Después debes reportar lo obtenido con el label original. En el caso que sea una columna que necesite normalización, si te entiendo bien, debes dejar tus datos codificados y al final normalizar, si es que tu codificación no está normalizada.

Saludos,

Astrid