Peer Review Draft analysis (Gruppe B)

Peer review team

Peer review by: Gruppe B
Names of team members that participated in this review: Julian Erath, Sophi Pischl, Furkan Saygin

Goal of the project

Das Ziel des Projekts ist es, die Attribute eines erfolgreichen Dating-Profils auf Plattformen wie Lovoo zu verstehen. Das Team beabsichtigt, Profilbesuche und potenzielle Fans mit linearen Regressionsmodellen vorherzusagen. Zusätzlich sollen Klassifikationsanalysen mittels logistischen Regressionsmodellen durchgeführt werden, um vorherzusagen, ob ein Profil Fans aufweist, oder nicht. Allerdings werden im Kapitel Forschungsfrage eher Aussagen und keine klaren, untersuchbaren Fragen mit Hypothesen formuliert. Es wäre hilfreich, sie so umzuformulieren, dass spezifische Untersuchungen angeregt werden und konkrete Fragestellungen im Schlusskapitel beantwortet und Hypothesen bestätigt oder abgelehnt werden können.

Data

Die Daten umfassen Merkmale von weiblichen Lovoo Nutzerprofilen (Besucheranzahl des Profils, Anteil ausgefüllter Accountdetails, Alter des Profilinhabers, Anzahl hochgeladener Bilder, Anzahl vergebener Kisses, Anzahl Fans, Binerische Angabe, ob ein Profil über Fans verfügt oder nicht).
Es fehlt jedoch eine Erläuterung zur Herkunft der Daten mit (wissenschaftlichen) Quellenangaben, was Fragen zur Zuverlässigkeit, ethischen Beschaffung und Repräsentativität aufwirft. Zusätzlich wird die Angemessenheit des Datensatzes hinsichtlich Größe und Vollständigkeit nicht diskutiert.

Approach, tools and methods

Der Einsatz von linearer und logistischer Regression ist für die formulierten Ziele geeignet. Allerdings erscheint die Auswahl der Merkmale, die Untersucht werden zunächst willkürlich, ohne Untersuchung der Kollinearität oder Erklärung für das Entfernens bestimmter Merkmale. Zur Parameterauswahl der Multiple Predictor Regressionsanalyse könnte Forward Selection oder Backward Deletion verwendet werden. Im späteren Verlauf des Notebooks werden einzelne Variablen ohne wissenschaftliche Begründung über Parameterselektion verworfen, um die Metriken erneut zu validieren und den Einfluss der Features zu bestimmen.
Die Verwendung von Cross-Validation ist gut geeignet, jedoch fehlt eine Begründung für die Wahl von "neg_mean_squared_error" als Optimierungsmetrik, insbesondere in Bezug darauf, wie sie mit den Projektzielen übereinstimmt.
Durch Einsatz verschiedener geeigneter Metriken (R2 Score, MSE, RMSE, AUC) wurde sichergestellt, dass eine umfassende und adäquate Modellbewertung erfolgen kann.

Lack of clarity

Merkmalsauswahl: Keine Erklärung für das Entfernen von Merkmalen oder fehlende Untersuchung der Kollinearität zwischen den Merkmalen.
Visualisierung: "scatterplot.html" wird als einziges als HTML gespeichert und nicht als Output ausgegeben, ohne Begründung für diese Ausnahme.
Methodologische Begründungen: Fehlen von Erklärungen für wichtige Entscheidungen im Modellierungsprozess, einschließlich der Wahl von Bewertungsmetriken und Validierungsstrategie. Gewählte Hyperparameter wurden nicht erklärt. Auch Erklärung und Begründung der wissenschaftlichen Forschungsmethodologie fehlt.
Wissenschaftliche Quellen: Dem Projekt fehlt es im Allgemeinen an wissenschaftlichen Quellen zum Belegen von Fakten, dem Vorgehen und der Methodologie.
Unklarheiten zu Datenparametern: Teilweise war unklar, was einige Parameter bedeuten (wie genau sind bspw. Kisses und Fans zu verstehen?)
Ungenauigkeiten bei Erklärung von Fachwörtern: Bspw. der Fachbegriff Precision wurde ungenau erklärt (dieser ist nicht gleich der Genauigkeit).
Basierend auf der Forschungsfrage sollte zudem diskutiert werden, in welche Richtung (Precision, Recall, Accuracy oder F1-Score) das Model optimiert werden sollte.

Possible improvements

Forschungsfrage: Umformulierung der Forschungsfrage als tatsächliche Frage mit Hypothese, um die Untersuchung zu leiten.
Datenerklärung: Angabe von Details zur Datenquelle und Sicherstellung, dass diese repräsentativ sind.
Begründung der Merkmalsauswahl: Erklärung, warum bestimmte Merkmale entfernt werden und Untersuchung der Kollinearität zwischen den Prädiktoren.
Integration von Visualisierungen: Integrierung aller Visualisierungen direkt in das Notebook, das Speichern als HTML kann zusätzlich gemacht werden.
Methodologische Transparenz: Rechtfertigung der Wahl der Metriken, Validierungsmethoden und aller methodologischen Entscheidungen.
Kritische Reflexion: Hinzufügen eines Abschnittes, der kritisch die Methodik, Daten und Ergebnisse reflektiert.
Pfadverwaltung: Umwandlung absoluter Pfade in relative Pfade, für bessere Reproduzierbarkeit.
Struktur: Durchführung der EDA vor dem Training der Modell, um über den Modellierungsprozess zu informieren und diesen zu begründen. Entfernung leerer Markdown-Zellen und Löschen von Warnungen sofern berücksichtigt, um die Lesbarkeit zu verbessern.
Weitere Verbesserungsmöglichkeiten (möglicherweise Out of Scope: -- Hyperparamteroptimierung -- Anwendung und Vergleich von Ergebnissen mehrerer linearer Regressionsmodelle und Klassifikationsmodelle -- Feature Selektion insbesondere für Multiple Predictor Analysis über Forward Selection oder Backward Deletion -- Bei der Klassifizierung wurde ein sehr unbalancierter Datensatz festgestellt, dieser sollte diskutiert werden und evtl. Maßnahmen wie Oversampling / Undersampling ergriffen werden, um eine gute Modelqualität sicherzustellen.
Wissenschaftliche Quellen: Allgemeines Hinzufügen von wissenschaftlichen Quellen zum Belegen von Fakten, dem Vorgehen und der Methodologie.
Unklarheiten zu Datenparametern: Es sollte auf jeden Datenparameter einmal einzeln schriftlich eingegangen werden, um diesen zu erklären.
Visualisierungen der Analyserergebnisse.

Presentation

Besonders interessant wäre die Anwendung der Erkenntnisse auf reale Szenarien, insbesondere wie Benutzer ihre Profile auf Basis der Einsichten optimieren können. Die Demonstration anhand einiger Fallstudien oder simulierter Profile wäre ansprechend und würde praktischen Wert bieten.
Visualisierungen der Analyserergebnisse.

Organization

Das Notebook würde von einer logisch leichter nachvollziehbaren Struktur profitieren, wobei die gesamte EDA vor dem Training der Modelle durchgeführt werden sollte. Momentan ist sowohl die EDA als auch das Training getrennt in lineare und logistische Regression. Die EDA sollte die Datengrundlage untersuchen, wobei anschließend die Ergebnisse genutzt werden, um Modelle zu trainieren und evaluieren. Dabei sollte die EDA noch ausführlicher durchgeführt werden und eine schriftliche Analyse mit Auswertung und Beschreibung der gewonnenen Erkenntnisse zur Anwendung im Modellierungskapitel auf Grundlage der Visualisierungen (Scatterplots für Association Analysis, Boxplots, Histogramme, Dotplots) gegeben werden.
Durchgängige Kommentare im Code zur Erklärung der Python-Befehle, Struktur und Vorgehen.
Markdowns, welche die Entscheidungen und Schritte erklären, würden das Verständnis fördern.
Das Entfernen leerer Markdown-Zellen und das Entfernen von Warnungen würde die Lesbarkeit verbessern.

Further comments

Kritisches Hinterfragen: Allgemeines kritisches Hinterfragen von Ergebnissen und Vorgehen. Zusätzlich ein Schlusskapitel zur kritischen Reflektion mit Zukunftsausblick.
Transparente Dokumentation: Sicherstellung, dass jeder methodischer Schritt und jede Datenverarbeitung transparent dokumentiert und begründet wird.
Für die finale Abgabe sollte das Notebook nochmal auf Rechtschreibung und Grammatik geprüft werden, hier wurden einige Fehler gefunden. Auch sind einige Imports doppelt (bsp. Pandas).
Bei sensiblen personenbezogenen Daten (wie es hier bei Daten zum Online-Dating der Fall ist) ist auf jeden Fall eine zumindest kurze ethische Diskussion notwendig (sind die Daten ausreichend anonymisiert, ist die Analyse nicht biased, werden keine Personengruppen diskriminiert (zb. Analyse nur für Frauen) und was für Folgen kann die Analyse haben)
Auf Grundlage der Daten wurde das Modell gut kritisch hinterfragt.

DA-Statistics-Nadine-Alena / project