NilsRueffer / Wissenschaftliches_Arbeiten_Leistung3

1 stars 5 forks source link

Rückmeldung Skript 4 #23

Open MattiasKeppke opened 3 years ago

MattiasKeppke commented 3 years ago

Guten Tag meine lieben Leute, erstmal danke , dass ihr die Analysearbeit auf euch genommen habt. Ich finde ihr seid da schon auf dem absolut richtigen Pfad, zu ein paar Dingen habe ich allerdings noch fragen.

Funktionsaufruf 1) Solide

Funktionsaufruf 2) "sowohl das interresse an programmierung als auch an mathematik sind ueberdurchschnittlich und fast gleich" - Ich würde anstatt "überdurchschnittlich" eher schreiben, dass sie eher "hoch" sind, oder so .. der Durchschnitt ist ja grade das was wir ausrechnen lassen haben und der Durchschnitt der des Interesse an Mathe ist dann doch genau der Durchschnitt, und nicht überdurchschnittlich ;) Ansonsten solide.

Funktionsaufruf 3) Erster Teil gut, allerdings würde ich bei den Studiengängen nicht schreiben, dass es nichts interessantes gibt sondern, dass sie zur Mitte hin konzentriert sind, oder so. Ich würde evtl. in der ganzen Funktion hier auf relative Häufigkeiten gehen, anstatt auf absolute, da es vermutlich interessanter ist zu wissen welcher Anteil der DS-Studierenden Interesse an Programmieren hat, als wie viele DS-Studierende absolut.

Funktionsaufruf 4) Solide. Vllt. etwas mehr dazu schreiben, mir würde das aber reichen :)

Funktionsaufruf 5) Solide. Hier wäre es evtl. interessant gewesen nochmal die einzelnen Studiengänge zu überprüfen, um das was ich bei 2 geschrieben habe besser zu sehen.

Funktionsaufruf 6) Einfach schön. Alle Achtung!

UweTUDO commented 3 years ago

zu Funktionsaufruf 2) Das war von mir schlecht formuliert. Der neutrale Wert der Skala 1 bis 7 wäre 3,5. Mit überdurchschnittlich wäre ein Mittelwert der Probe über 3,5. In unserem Fall

$Mean Interesse an Mathe

[1] 4.49

$Mean Interesse an Programmieren

[1] 4.64

Stellt sich natürlich die Frage wo die Referenzgröße ist. Mittelwert eines Abijahrgangs?

UweTUDO commented 3 years ago

zu Funktionsaufruf 3) Mich wunderte, das die Studierenden die Interesse an Programmieren haben vor allem Data Science studieren und nicht Informatik. Ja, ansonsten alles um die Mitte gestreut. Das sehe ich auch so. Es gibt nur die Ausreißer Interesse an Mathematik == 7 --> Mathe Interesse an Programmieren == 7 -- > Data Science

UweTUDO commented 3 years ago

zu Funktion 6 War das so gewollt? data science ist etwa doppelt so häufig vertreten wie jeweils Informatik und Statistik Informatik und Statistik etwas mehr als Mathematik

NilsRueffer commented 3 years ago

Bezüglich 2): Ich würde auch sagen, dass überdurchschnittlich bedeutet, dass der MIttelwert mehr als 3.5 beträgt.

Bezüglich 3): DIe Daten wurden so verteilt, dass Data Science und Informatik gleiches Interesse an Programmieren haben, die Data Science Studenten haben allerdings mehr Interesse an Mathematik als Informatik Studenten.

Bezüglich 6): Data Science und Statistik sollten gleich oft vorkommen, da beide mit einer Wahrscheinlichkeit von 30% versehen wurden, während Informatik eine 25% Chance hatte und Mathe eine 15% Chance.

UweTUDO commented 3 years ago

zu 6) Dann ist da etwas nicht ganz so gelaufen wie es sollte?! Oder sehe ich das falsch? summary(data_in_df$Studienfach == 'Data Science') Mode FALSE TRUE logical 62 38

summary(data_in_df$Studienfach == 'Statistik') Mode FALSE TRUE logical 77 23 summary(data_in_df$Studienfach == 'Informatik') Mode FALSE TRUE logical 78 22 summary(data_in_df$Studienfach == 'Mathe') Mode FALSE TRUE logical 83 17

UweTUDO commented 3 years ago

zu 3) Wenn die 9 Data Science Studenten mit Interesse an Mathematik == 2 nicht wären, wäre die Tendenz schöner. statistics_between_two_categorial_variables("Studienfach", "Interesse.an.Mathe")

1 2 3 4 5 6 7

Data Science 2 9 7 2 11 2 5

Informatik 2 1 6 2 5 3 3

NilsRueffer commented 3 years ago

Wieso sollte da etwas falsch gelaufen sein? Es wurde ja gesampled und 30 - 23 = 7, 38 - 30 = 8, sowohl Statistik als auch Data Science wurden einfach relativ extrem in die jeweiligen RIchtungen verteilt, in anderen Worten: es ist statistisch unwahrscheinlich, aber nicht unmöglich. Die Wahrscheinlichkeit, dass 38 Data Science Studenten in unserem Datensatz auftauchen beträgt 1.906659%

NilsRueffer commented 3 years ago

Das ist halt das Problem an zufällig generierten Datensätzen,

UweTUDO commented 3 years ago

Ok, dann ist es richtig gelaufen und wir haben richtig erkannt das eine sehr unwahrscheinliche Stichprobe herausgekommen ist.