Das kleine 'große Experiment'

Nach dem mittlerweile fünf Distanzmatrizen zur Verfügung stehen und ich mit der Log. Regression Theorie vorangekommen bin, stellen sich mir einige Fragen, was die Bewertung der Models angeht.

Aus verschiedenen Foren, Skripten und Büchern habe ich Folgendes mitgenommen bzw. aufgrund dessen was ich gelesen habe, stellen sich mir folgende Fragen:

statsmodels gibt sowohl für die Models als auch für die Prädiktoren p-Werte aus.

p-Werte der Prädiktoren

Die Prädiktoren, deren p-Wert kleiner 0.05 sind, haben signifikante Assoziationen mit dem Ergebnis. Das sind dann vermutlich die Sequenzen, an denen Ich interessiert sein sollte und die man sich 'merken' oder vergleichen sollte, oder? Mit Vergleichen meine ich bspw. diesen Cluster speichern und mit anderen Prädiktoren mit p-Wert kleiner 0.05 abgleichen, d.h. einen Cluster-Overlap berechnen. Im besten Fall findet sich eine Schnittmenge der Sequenzen, die dann im weiteren Verlauf für die AG Kilian/Manfred interessant sein könnten.

p-Wert des Models

Oft ist der p-Wert des gesamten Models weit über 0.05, einige Male sogar 1. Models die einen p-Wert von 1 haben, sind vermutlich nicht zu gebrauchen und können ignoriert werden, oder? Manche der Models die insgesamt einen p-Wert von 1 haben, haben eine Accuracy von über 80%, was Models mit einem niedrigeren p-Wert oft nicht haben. Bei einem Test-Datensatz von 19 Observations kann da aber vermutlich auch viel Zufall dabei sein.

Weitere Bewertung der Models

Die Confusion-Matrix finde ich sehr nett, da sie auf anhieb einen guten Überblick über den Klassifikator gibt, z.B. wurde alles auf die 1 geworfen oder gibt es wirklich eine ausgewogene Klassifizierung. Hier ist es aber nicht möglich etwas über die Signifikanz der Ergebnisse zu schließen.

Die Accuracy scheint mir sehr straight-forward. Ist der Wert hoch, war der Prädikor halbwegs i.O. Bei nicht sehr vielen Prädiktoren, passiert es allerdings immer wieder, dass einfach alles zur 1 klassifiziert wird und das allein reicht für eine ACC. von ~60%.

Die ROC AUC wird immer wieder als gutes Maß des Prädiktors angeführt, wobei hier ja nur die 1en berücksichtigt werden. Da der Datensatz ja sowieso in Richtung der 1en unbalanced ist und die Vorhersage kranker Patienten wahrscheinlich interessanter ist, als die der Gesunden, dürfte dieser Wert vermutlich sehr interessant sein.

Was den F1-Score (harmonisches Mittel aus Präzision [TP/(TP+FP)] und TPR) anbelangt, hatte ich dieselbe Überlegung wir zur ROC AUC. Auch hier werden die 0en außen vor gelassen, was die Unbalanced-heit (uah denglisch) in den Hintergrund rücken lässt. Alternativ hierzu, habe ich gelesen, ist Matthews' correlation coefficient. Wobei, so wie ich es verstehe, dieser anfälliger für unbalanced Daten ist.

Fragen

Kannst du mir eine Rückmeldung geben, ob ich a) das meiste so richtig verstanden habe und b) ob meine Überlegungen, gerade was den p-Wert angeht, sinnvoll sind?
Ist ein Mix aus all diesen Scores gut oder sollte ich mich auf einen/einige wenige beschränken? Und wenn letzteres, was würdest du empfehlen?

donEnno / gamma_delta