provinciesincijfers / PinC-taakopvolging

Dagelijks werk aan provincies.incijfers.be door de medewerkers van Data & Analyse
1 stars 1 forks source link

Gewogen versus niet-gewogen z-scores #464

Open SarahMeire opened 3 months ago

SarahMeire commented 3 months ago

Vragen aan de redactiegroep:

Context:

In dit Excelbestand kan je een voorbeeld van de berekeningen vinden: test_zscores_berekening.xlsx

Swing berekent voor niet-relatieve cijfers (bv. het aantal hurende private huishoudens) de z-scores als volgt:

$Z=\frac{(X- μ)}{σ}$

waarin:

De standaardafwijking σ wordt berekend als volgt:

$\sigma = \sqrt{\frac{\sum \left ( X-\mu \right )^2}{n-1}}$

waarin n-1 duidt op een steekproef; in het voorbeeld is de noemer dus 299 (= het aantal Vlaamse gemeenten - 1).

In het geval van relatieve cijfers (bv. het aandeel private huishoudens in een huurwoning t.o.v. de private huishoudens met een gekende bewoningstitel) berekent Swing echter een gewogen z-score met de waarden van de aggregatie-indicator als gewichten; t.t.z. als dit veld ingevuld is in de indicatorentabel (in dit voorbeeld = de private huishoudens met een gekende bewoningstitel):

$Z= \frac{X- μ_{gewogen}}{σ_{gewogen}}$

Dus hierin:

$μ_{gewogen} = \frac{\sum \left ( X \times gewicht \right )}{\sum gewichten}$

$σ_{gewogen} = \sqrt{\frac{\sum \left ( gewicht \times \left ( X - \mu_{gewogen} \right )^2 \right )}{\sum gewichten}}$

Door een gewogen z-score te gebruiken, trek je m.i. het gemiddelde meer naar de gemeentes toe met veel huishoudens (het aggregatie-onderwerp in kwestie) – je geeft immers ‘meer gewicht’ aan deze gemeenten. Hierdoor krijgen ze een (gewogen) z-score die minder extreem is dan het geval zou zijn bij een niet-gewogen z-score (gezien hun waarden dichter bij het gemiddelde liggen). Ik heb ABF om toelichting gevraagd en dit was hun antwoord:

“Het is altijd een discussie geweest, of je wel of niet wil wegen. Bij ozb-tarieven wil je bijvoorbeeld elke gemeente even zwaar mee wegen (dus eigenlijk niet wegen) en bij andere onderwerpen juist weer niet. In het verleden was de weging standaard 1. Als je dan de 12 provincies (Nederland) liet zien, dan telde elke provincie even zwaar mee. Als je het op gemeenteniveau toont, dan is het landelijke gemiddelde dus anders dan als je het op provincieniveau toont. Het niveau is leidend voor de weging en de niveautotalen leidend voor de berekening van de z-score. De keuze of je weegt met de aggregatie-indicator of een weegfactor 1 is aan de gebruiker. Standaard zal Swing wegen als er bij een indicator een aggregatie-indicator is ingesteld (dat is meestal het geval). Als je niet wilt laten wegen dan kan je de aggregatie-indicator leeg laten. Swing zal dan alle gebieden even zwaar laten mee wegen.”

Tine-VB commented 2 months ago

Het lijkt ons logisch om te wegen, want anders tellen alle gemeenten evenveel mee. Bij weging tellen de gemeenten met een grotere bevolking of een grotere oppervlakte (afhankelijk van de aggregatie-indicator) meer mee in de berekening van het gemiddelde dan de kleinere gemeenten. Wat dus terecht is, maar Filip kan dit vast beter uitleggen dan ik :-).

Emilien-Dupont commented 2 months ago

Redactiegroep 19/09/24: We zoeken uit of het probleem opgelost kan worden door het aggregatie onderwerp leeg te laten. Maar: Swing heeft het aggregatie onderwerp nodig, anders maakt hij rekenfouten door. Je mag bij meerdere gebieden niet zomaar de noemer optellen en delen door het aantal gebieden, dat is wiskundig verkeerd. Verder geeft Swing enkel het gewogen gemiddelde als je het aggregatie-onderwerp invult, anders kan je dit niet opvragen.

Dus: je hebt het aggregatie onderwerp nodig, maar de z-scores worden daardoor niet volledig correct berekend. Verder te onderzoeken.

SarahMeire commented 2 weeks ago

Tussentijdse update: Ik heb de problemen die opduiken bij het leeg laten van de aggregatie-indicator voorgelegd aan ABF (in deze mail vind je nog eens een overzicht met voorbeelden van wat er goed/slecht loopt na het leeglaten van de aggregatie-indicator).

SarahMeire commented 6 days ago

Antwoord van ABF: "Om dit op te lossen kun je een aggregatie onderwerp met waarde 1 opgeven bij de percentageonderwerpen waarover je een z-score wilt berekenen. De z-scores worden dan ongewogen berekend en kolomtotalen en gemiddeldes worden (ongewogen) berekend en getoond."

Emilien-Dupont commented 6 days ago

RG 18/11/24: Sarah test de oplossing van ABF uit.