Open FernandoSMG opened 2 years ago
Hola, La interpretación sobre las componentes que obtienes no es tan directa, lo principal es entender que se aplica una transformación que permite representar en menos dimensiones la información.
En cuanto a lo segundo, la separación en k folds es solo para train cuando haces cross validation, y ahí debes normalizar cada uno por separado, para eso puedes ocupar pipeline.
Saludos, Pablo
Hola, al realizar la reducción de dimensionalidad usando PCA , que resulta exactamente en ambas columnas? no logro entender bien el resultado, encuentro un set de puntos pero no logro diferenciarlos.
Por otro lado, tengo una duda al realizar la separación entre el test de entrenamiento y test. Al revisar la documentación de Scikit Learn encontré el metodo GridSearchCV que tiene como parametros el modelo a "tunear" y la cantidad de folds utilizados utilizados ya que usa Stratified K Fold para encontrar los parametros optimos. Luego este se ajusta al modelo de entrenamiento. Esta situacion va relacionada a la normalizacion de columnas. En otra Issue se comenta que al normalizar se debe tener cuidado con normalizar los set de validacion y testeo usando informacion del set de entrenamiento, se normaliza cada Fold por separado. En este sentido, la pregunta es si defino previamente los set de training y test usando KFold en la separacion de datos es correcto utilizar Grid Search CV.
Muchas gracias de antemano