Open MattiasKeppke opened 3 years ago
zu Funktionsaufruf 2) Das war von mir schlecht formuliert. Der neutrale Wert der Skala 1 bis 7 wäre 3,5. Mit überdurchschnittlich wäre ein Mittelwert der Probe über 3,5. In unserem Fall
Mean Interesse an Mathe
Mean Interesse an Programmieren
Stellt sich natürlich die Frage wo die Referenzgröße ist. Mittelwert eines Abijahrgangs?
zu Funktionsaufruf 3) Mich wunderte, das die Studierenden die Interesse an Programmieren haben vor allem Data Science studieren und nicht Informatik. Ja, ansonsten alles um die Mitte gestreut. Das sehe ich auch so. Es gibt nur die Ausreißer Interesse an Mathematik == 7 --> Mathe Interesse an Programmieren == 7 -- > Data Science
zu Funktion 6 War das so gewollt? data science ist etwa doppelt so häufig vertreten wie jeweils Informatik und Statistik Informatik und Statistik etwas mehr als Mathematik
Bezüglich 2): Ich würde auch sagen, dass überdurchschnittlich bedeutet, dass der MIttelwert mehr als 3.5 beträgt.
Bezüglich 3): DIe Daten wurden so verteilt, dass Data Science und Informatik gleiches Interesse an Programmieren haben, die Data Science Studenten haben allerdings mehr Interesse an Mathematik als Informatik Studenten.
Bezüglich 6): Data Science und Statistik sollten gleich oft vorkommen, da beide mit einer Wahrscheinlichkeit von 30% versehen wurden, während Informatik eine 25% Chance hatte und Mathe eine 15% Chance.
zu 6) Dann ist da etwas nicht ganz so gelaufen wie es sollte?! Oder sehe ich das falsch? summary(data_in_df$Studienfach == 'Data Science') Mode FALSE TRUE logical 62 38
summary(data_in_df$Studienfach == 'Statistik') Mode FALSE TRUE logical 77 23 summary(data_in_df$Studienfach == 'Informatik') Mode FALSE TRUE logical 78 22 summary(data_in_df$Studienfach == 'Mathe') Mode FALSE TRUE logical 83 17
zu 3) Wenn die 9 Data Science Studenten mit Interesse an Mathematik == 2 nicht wären, wäre die Tendenz schöner. statistics_between_two_categorial_variables("Studienfach", "Interesse.an.Mathe")
Wieso sollte da etwas falsch gelaufen sein? Es wurde ja gesampled und 30 - 23 = 7, 38 - 30 = 8, sowohl Statistik als auch Data Science wurden einfach relativ extrem in die jeweiligen RIchtungen verteilt, in anderen Worten: es ist statistisch unwahrscheinlich, aber nicht unmöglich. Die Wahrscheinlichkeit, dass 38 Data Science Studenten in unserem Datensatz auftauchen beträgt 1.906659%
Das ist halt das Problem an zufällig generierten Datensätzen,
Ok, dann ist es richtig gelaufen und wir haben richtig erkannt das eine sehr unwahrscheinliche Stichprobe herausgekommen ist.
Guten Tag meine lieben Leute, erstmal danke , dass ihr die Analysearbeit auf euch genommen habt. Ich finde ihr seid da schon auf dem absolut richtigen Pfad, zu ein paar Dingen habe ich allerdings noch fragen.
Funktionsaufruf 1) Solide
Funktionsaufruf 2) "sowohl das interresse an programmierung als auch an mathematik sind ueberdurchschnittlich und fast gleich" - Ich würde anstatt "überdurchschnittlich" eher schreiben, dass sie eher "hoch" sind, oder so .. der Durchschnitt ist ja grade das was wir ausrechnen lassen haben und der Durchschnitt der des Interesse an Mathe ist dann doch genau der Durchschnitt, und nicht überdurchschnittlich ;) Ansonsten solide.
Funktionsaufruf 3) Erster Teil gut, allerdings würde ich bei den Studiengängen nicht schreiben, dass es nichts interessantes gibt sondern, dass sie zur Mitte hin konzentriert sind, oder so. Ich würde evtl. in der ganzen Funktion hier auf relative Häufigkeiten gehen, anstatt auf absolute, da es vermutlich interessanter ist zu wissen welcher Anteil der DS-Studierenden Interesse an Programmieren hat, als wie viele DS-Studierende absolut.
Funktionsaufruf 4) Solide. Vllt. etwas mehr dazu schreiben, mir würde das aber reichen :)
Funktionsaufruf 5) Solide. Hier wäre es evtl. interessant gewesen nochmal die einzelnen Studiengänge zu überprüfen, um das was ich bei 2 geschrieben habe besser zu sehen.
Funktionsaufruf 6) Einfach schön. Alle Achtung!