Marijkevandesteene / MachineLearning

repo to share progress and to manage versions of exam MachineLearning (M14)
0 stars 2 forks source link

Consistency score.csv en train_V2.csv #11

Closed binomaiheu closed 5 months ago

binomaiheu commented 5 months ago

Mogelijks nuttig ook om es na te gaan of de histogrammen van de feature in score.csv en train_V2.csv min of meer gelijkaardig zijn.

Marijkevandesteene commented 5 months ago

In the example solution the score and traning data are 'merged' (without the outcome) are treated in the same way and then divided. Is that a good approach?

Use data from the score set for imputing missing values???

To decide on the approach for missing values???

Misschien in ieder geval ook meebekijken, als een van de features in de score lijkt te ontbreken en deze heeft een grote impact in het model, ... heeft dit dan impact op de voorspelling? je introduceert een fout (guassian fout) bij een voorspelling van een feature / bij imputing a feature.

MIsschien is het beter een feature niet mee te nemen in het model als deze voor alle te scoren clienten otnbreert

binomaiheu commented 5 months ago

bij de imputer opbreken, eerst .fit() en dan .transform()