Closed binomaiheu closed 5 months ago
In the example solution the score and traning data are 'merged' (without the outcome) are treated in the same way and then divided. Is that a good approach?
To decide on the approach for missing values???
Misschien in ieder geval ook meebekijken, als een van de features in de score lijkt te ontbreken en deze heeft een grote impact in het model, ... heeft dit dan impact op de voorspelling? je introduceert een fout (guassian fout) bij een voorspelling van een feature / bij imputing a feature.
bij de imputer opbreken, eerst .fit()
en dan .transform()
Mogelijks nuttig ook om es na te gaan of de histogrammen van de feature in score.csv en train_V2.csv min of meer gelijkaardig zijn.