Closed Doreen-M closed 10 months ago
EDA mit aufgenommen und mehr darauf eingegangen Erklärungen aus dem Proposal für die Predictorvariablen aufgenommen
Forward selection für die lineare Regression angewendet
Undersampling für die logistische Regression angewendet
Fragen werden in die Präsentation eingebaut
Auf Gleichmäßigkeit bei den Beschreibungen geachtet
Ranking in Präsentation hinterlegt.
Danke für euer Feedback :)
Peer review team
Goal of the project
Ziel ist es Einflussfaktoren für ein erfolgreiches Nutzerprofil auf Lovoo zu identifizieren, d.h. eine hohe Anzahl von Profilbesuchen und eine dementsprechend hohe Interaktion anderer Nutzer mit diesem Profil. Zudem soll anhand der Profileigenschaften untersucht werden, ob sich das Profil dazu eignet einen Fan zu generieren.
Data
Das Dataset enthält insgesamt 42 Spalten und 3855 Zeilen. Jeder Datensatz stellt ein Profil auf der Plattform Lovoo dar und liefert Information über dieses. Ein Blick auf das Data Dictionary zeigt, dass der Datensatz zahlreiche Informationen über die Profile liefert, wie beispielsweise das Alter des Nutzers, die auf dem Account geteilten persönlichen Details, Anzahl der geteilten Bilder, etc. Somit scheint das Datenset geeignet für die Durchführung der vorgesehenen Analysen.
Approach, tools and methods
Lineare Regression: Mithilfe einer linearen Regression wird die Anzahl der Profilbesuche anhand der Variablen counts_details, counts_pictures, counts_kisses und counts_fans vorhergesagt und damit den wahrscheinlichen Erfolg eines Profils zu bestimmen. Hierfür werden die Daten zunächst von NaN-Werten sowie um Fehler in der Spalte Gender bereinigt und in Trainings- und Testdaten unterteilt. Anschließend wird ein Überblick über die Daten und die Beziehungen zwischen den Variablen gegeben z.B. mit Hilfe von Korrelationsanalysen. Hierfür werden sowohl Darstellungen in tabellarischer Form als auch Diagramm verwendet, die die Erkenntnisse gut visualisieren. Abschließend erfolgt die Evaluation des Modells anhand der in der Vorlesung besprochenen Modellgütekennzahlen, wie beispielsweise RMSE, MSE, R^2.
Logistische Regression: Mithilfe der logistischen Regression soll bestimmt werden, ob ein Account das Potenzial hat Fans zu generieren oder nicht. Hierfür werden die Parameter age, counts_details, counts_pictures, counts_profileVisits und counts_kisses verwendet. Dem Datensatz wird zunächst eine Spalte hinzugefügt, die angibt, ob ein Profil Fans hat (1) oder keine Fans hat (0). Zudem erfolgt die Bereinigung des Datensatzes um NaN-Werte sowie der Split in Trainings- und Testdaten. Anschließend wird ein Überblick über die Daten und die Beziehungen zwischen den Variablen gegeben. Hierfür werden sowohl Darstellungen in tabellarischer Form als auch Diagramm verwendet, die die Erkenntnisse gut visualisieren. Abschließend erfolgt die Evaluation des Modells anhand der in der Vorlesung besprochenen Modellgütekennzahlen, wie beispielsweise Precision, Recall, F1 und AUC. Es wird versucht möglichst wenige falsch positiven Werte vorherzusagen, daher wird der Schwellenwert relativ hoch angesetzt, was die Vorhersage für Profile ohne Fans deutlich verbessert und somit die Anzahl von false positive Klassifizierungen niedrig hält.
Lack of clarity
Anhand welcher Kriterien wurden die verwendeten Prädiktorvariablen aus den ursprünglichen 42 Spalten ausgewählt?
Die Bedeutung der Prädiktorvariablen war uns manchmal nicht ganz klar (Wir haben später gesehen, dass diese im Project Proposal sehr ausführlich beschrieben sind, wollten aber trotzdem den Hinweis geben, dass die genaue Bedeutung aus der Draft Analysis selbst nicht ganz hervorgeht.)
Possible improvements
Vielleicht könnten noch weitere Variablen aus dem Datenset verwendet werden, um die Vorhersagen zu verbessern.
Bei der linearen Regression sind eventuell auch andere Methoden für die Identifikation von Ausreißern denkbar.
Bei der logistischen Regression fällt auf, dass das Verhältnis zwischen Fans/keine Fans relativ unausgewogen ist. Hier könnte eventuell Oversampling angewandt werden, um die Trainingsdaten auszubalancieren und eine bessere Performance zu erzielen.
Presentation
Welche Schwierigkeiten entstanden während des Projektes? War der Datensatz im Nachhinein gut geeignet oder würdet ihr ein anderes Thema wählen? Vielleicht wäre ein Ranking zu den Profileigenschaften, die den größten Einfluss auf Profilbesuche und die Wahrscheinlichkeit Fans zu generieren haben, denkbar.
Organization
Der Aufbau des Projektes ist strukturiert und nachvollziehbar. Manche Abschnitte sind viel detaillierter erklärt und beschrieben als andere. Vielleicht könnte man manche Punkte ebenfalls noch detaillierter beschreiben (z.B. Thema Training and Validation ist kaum kommentiert).
Further comments