ggdatascience / rapportage_monitor_gmj

Script om school- en gemeenterapportages voor de Gezondheidsmonitor Jeugd te maken in PowerPoint op basis van een configuratiebestand in Excel.
1 stars 2 forks source link

Bij controle met SPSS uitdraai wat verschillen #49

Open SBorsboom opened 8 months ago

SBorsboom commented 8 months ago

Wij hebben naast een ingevulde schoolrapportage een uitdraai uit SPSS gelegd en dan vinden we toch wat verschillen in percentages (meestal 1% , soms 2%). Wij vroegen ons af wat hiervoor de verklaring kan zijn.

simoneverdiesen commented 8 months ago

Wij hebben hetzelfde probleem.

MFlapper commented 8 months ago

Wij misten een aantal respondenten.. Wij hebben het filter in het script aangepast, MBOKA3S31 ipv MBOKK3S31 (extra opschoningsstap onderwijsniveau). Helpt dat misschien?

STVermeulen commented 8 months ago

Zouden jullie iets meer details kunnen geven? Om welke indicatoren gaat het? Is het bij een bepaald figuur?

SBorsboom commented 8 months ago

Ik zie wat grotere verschillen vooral bij de (OKO) vragen over mening ouders over alcoholgebruik, waar drinken, hoe kom je aan alcohol. Dat gaat natuurlijk over een selectie van alcohol drinkende jongeren, dat zit ook in de SPSS variabele verwerkt. Bij bijvoorbeeld vertrouwen in de toekomst een klein verschil. Bij ouders brengen veel tijd met kind door in klas 4 zien we bij een school een verschil van 4%. Ik heb de tip met filter aanpassen nog niet geprobeerd, ga ik nog proberen.

STVermeulen commented 8 months ago

Ik heb gekeken naar de output van SPSS en die vergeleken met de output van R en ik kom in alle gevallen op precies dezelfde getallen uit (getest met 6 cijfers achter de komma). De enige verklaring die ik kan bedenken is dat jullie ergens een verschil hebben tussen het SPSS bestand dat je gebruikt ter controle en de data (het SPSS bestand) die gebruikt wordt door het script.

SBorsboom commented 8 months ago

Dank voor je reactie, ik ga dat nog een keer checken

SBorsboom commented 8 months ago

Het verschil ontstaat bij ons doordat er missende waarden zijn op de variabele MBOKK3S31 (hetzelfde geldt voor MBOKA3S31). In het script heb ik nu filter met opleiding "verwijderd" en dan kloppen de cijfers wel. wij maken voor de scholen geen uitsplitsingen naar opleiding, dus dat is dan denk ik geen probleem verder.

data <- data %>%

filter(MBOKK3S31 ==1 | MBOKK3S31==2) %>%

mutate(MBOKK3S31=factor(MBOKK3S31, levels=c(1,2), labels=c('Vmbo', 'Havo/Vwo')))

Kan het ook op een andere manier opgelost worden? Voor de gemeenten willen we wel uitsplitsen naar opleiding