[T4] Apartado 2.2.3 - Githubissues

czamoraz commented 2 months ago

Hola!

Tengo una duda con la parte 2.2.3 y es que entiendo cómo funciona el encoding y cómo aplicarlo, sin embargo, ¿tengo que aplicarlo para todas mis variables categóricas? porque al hacer esto me deja un df demasiado grande y para después puede afectar para hacer el pairplot o no?

Espero se haya entendido mi duda

dfloreaa commented 2 months ago

Hola, es por ello que es importante que elijas que columnas aportan o no a la clasificación, llevando a cabo encoding solamente para aquellas que si estimes que aporten.

Por ejemplo, si hubiese una columna de presidente, que indicase quien presidia el país en donde ocurrió el terremoto, es intuitivo entender que no aporta información a la tarea y, por tanto, no es necesario codificar.

Otra cosa que puedes considerar es "englobar" las categorias en conceptos mas grandes, si tienes 99% de instancias de una categoria y un 1% con muchas otras, puedes codificarlas como dos variables: una para el 99% y otra para todo el resto (other)

Saludos ☺️

czamoraz commented 2 months ago

Gracias!

IIC2613-Inteligencia-Artificial-2024-1 / Syllabus

[T4] Apartado 2.2.3 #64