ddionrails / steering

0 stars 0 forks source link

Aggregierte Daten für kategorielle Variablen #46

Closed hansendx closed 2 years ago

hansendx commented 3 years ago

Momentan wird bei der Aggregierenung so gruppiert, dass alle Zeilen innerhalb eines Jahres auf 100% aufrechenbar sind:

year proportion sex satisfaction lower_confidence upper_confidence
1999 0.25 m 1 .01 .01
1999 0.25 m 2 .01 .01
1999 0.25 f 1 .01 .01
1999 0.25 f 2 .01 .01

Stattdessen müssen die einzigartigen dimensionskombinationen für alle Ausprägungen der Kategoriellen Variable innerhalb eines Jahres 100% ergeben:

year proportion sex satisfaction lower_confidence upper_confidence
1999 0.50 m 1 .03 .03
1999 0.50 m 2 .02 .02
1999 0.50 f 1 .03 .02
1999 0.50 f 2 .02 .03

Beispiel für zwei Dimensionen:

year proportion sex region satisfaction lower_confidence upper_confidence
1999 0.75 m E 1 .03 .03
1999 0.20 m W 1 .01 .01
1999 0.25 m E 2 .02 .02
1999 0.80 m W 2 .01 .009
1999 0.10 f E 1 .03 .02
1999 0.40 f W 1 .009 .01
1999 0.90 f E 2 .02 .03
1999 0.60 f W 2 .03 .02