JanAlexanderPersonal / PrinstatProject

Project Groep 9 for Principles of Statistical Data Analysis : ARMPIT
0 stars 0 forks source link

Data cleaning #2

Open JanAlexanderPersonal opened 5 years ago

JanAlexanderPersonal commented 5 years ago

Objective:

Well structured data-set, ready for analysis

JanAlexanderPersonal commented 5 years ago

Intervallen voor discretisatie leeftijd:

pmorbee commented 5 years ago

Hier moeten we een trade off maken. Aangezien regressie niet op het menu staat zullen we verschillende klassen onderzoeken en een te grote opslitsing zal moeilijk interpreteerbaar zijn. Om deftig te kunnen analyseren hebben we per klasse minimum 5 vertegenwoordigers nodig. Heel wat mensen zijn jonger dan 30 en naarmate de leeftijd vordert neemt het aantal af. Ik denk dat breaks op 25, 35 en 50 een betere verdeling kan zijn. 5 klassen dus. Naar leeftijd wel asymmetrisch maar heeft wel voldoende vertegenwoordigers en komt misschien beter overeen met de levensfases (ik zeg maar iets).

JanAlexanderPersonal commented 5 years ago

Ok, ik zal nog een histogram aanmaken om dit wat verder uit te werken.

JanAlexanderPersonal commented 5 years ago

breaks op 25, 35 en 50 zijn toegevoegd.

Histogram met aantal personen per groep beschikbaar.