IIC2115 / Syllabus-2021-1

Syllabus del curso IIC2115 - Programación como Herramienta para la Ingeniería 2021/I
9 stars 47 forks source link

Dudas PCA - Train_test_split -Normalizacion #102

Open FernandoSMG opened 2 years ago

FernandoSMG commented 2 years ago

Hola, al realizar la reducción de dimensionalidad usando PCA , que resulta exactamente en ambas columnas? no logro entender bien el resultado, encuentro un set de puntos pero no logro diferenciarlos.

Por otro lado, tengo una duda al realizar la separación entre el test de entrenamiento y test. Al revisar la documentación de Scikit Learn encontré el metodo GridSearchCV que tiene como parametros el modelo a "tunear" y la cantidad de folds utilizados utilizados ya que usa Stratified K Fold para encontrar los parametros optimos. Luego este se ajusta al modelo de entrenamiento. Esta situacion va relacionada a la normalizacion de columnas. En otra Issue se comenta que al normalizar se debe tener cuidado con normalizar los set de validacion y testeo usando informacion del set de entrenamiento, se normaliza cada Fold por separado. En este sentido, la pregunta es si defino previamente los set de training y test usando KFold en la separacion de datos es correcto utilizar Grid Search CV.

Muchas gracias de antemano

pcseisdedos commented 2 years ago

Hola, La interpretación sobre las componentes que obtienes no es tan directa, lo principal es entender que se aplica una transformación que permite representar en menos dimensiones la información.

En cuanto a lo segundo, la separación en k folds es solo para train cuando haces cross validation, y ahí debes normalizar cada uno por separado, para eso puedes ocupar pipeline.

Saludos, Pablo