Closed czamoraz closed 2 months ago
Hola, es por ello que es importante que elijas que columnas aportan o no a la clasificación, llevando a cabo encoding solamente para aquellas que si estimes que aporten.
Por ejemplo, si hubiese una columna de presidente
, que indicase quien presidia el país en donde ocurrió el terremoto, es intuitivo entender que no aporta información a la tarea y, por tanto, no es necesario codificar.
Otra cosa que puedes considerar es "englobar" las categorias en conceptos mas grandes, si tienes 99% de instancias de una categoria y un 1% con muchas otras, puedes codificarlas como dos variables: una para el 99% y otra para todo el resto (other)
Saludos ☺️
Gracias!
Hola!
Tengo una duda con la parte 2.2.3 y es que entiendo cómo funciona el encoding y cómo aplicarlo, sin embargo, ¿tengo que aplicarlo para todas mis variables categóricas? porque al hacer esto me deja un df demasiado grande y para después puede afectar para hacer el pairplot o no?
Espero se haya entendido mi duda