Open JanAlexanderPersonal opened 5 years ago
Intervallen voor discretisatie leeftijd:
Hier moeten we een trade off maken. Aangezien regressie niet op het menu staat zullen we verschillende klassen onderzoeken en een te grote opslitsing zal moeilijk interpreteerbaar zijn. Om deftig te kunnen analyseren hebben we per klasse minimum 5 vertegenwoordigers nodig. Heel wat mensen zijn jonger dan 30 en naarmate de leeftijd vordert neemt het aantal af. Ik denk dat breaks op 25, 35 en 50 een betere verdeling kan zijn. 5 klassen dus. Naar leeftijd wel asymmetrisch maar heeft wel voldoende vertegenwoordigers en komt misschien beter overeen met de levensfases (ik zeg maar iets).
Ok, ik zal nog een histogram aanmaken om dit wat verder uit te werken.
breaks op 25, 35 en 50 zijn toegevoegd.
Histogram met aantal personen per groep beschikbaar.
Objective:
Well structured data-set, ready for analysis