TSchiefer / MI_bigdata_project

amazon products analysis
0 stars 0 forks source link

Analyse #2

Open TSchiefer opened 5 years ago

TSchiefer commented 5 years ago

@wbuerzle Hab noch ein wenig meinen Senf zur Analyse dazugegeben im File: "analysis/AmazonProductData_analysis_TS.ipynb"

Der vorletzte Chunk dauert lange, wie auch schon beim Beispiel mit den Flights. Hier werden die stark verbundenen Komponenten bestimmt. Zum Zeitpunkt des Hochladens nach git war die Berechnung bei mir noch nicht fertig, also weiss ich nicht, ob etwas Nützliches dabei rauskam.

TSchiefer commented 5 years ago

Nochmal ein Update von "analysis/AmazonProductData_analysis_TS.ipynb" hochgeladen in 7559f92e27b683fa8f1c3eef8a0abfbedbb5a8e8

TSchiefer commented 5 years ago

das mit den "strongly connected components" scheint schon zu klappen, es kommt was leidlich Sinnvolles dabei raus. Auf der anderen Seite ist das Ergebnis von 6751 "Clustern" in einem Datensatz von lediglich 10611 Produkten schon ganz schön hoch... Aber positiv ist, dass die meisten Cluster nur zu einer Gruppe gehören.

TSchiefer commented 5 years ago

Gerade nochmal das Notebook etwas abgeändert/ergänzt.

FYI: die Berechnung der "strongly connected components"-Cluster dauert ca. 1 Stunde 10 Minuten.

wbuerzle commented 5 years ago

Grossartig was du da alles gemacht hast!

Habe mir heute alles angeschaut und meine Teile noch ein klein bissen überarbeitet und ein paar alte Kommentare gelöscht.

Ich finde das sollte so passen und genügen.

TSchiefer commented 5 years ago

Danke! Beim nochmaligen Anschauen habe ich gedacht, dass man noch die Anzahl Edges ins Notebook aufnehmen könnte. Habe das noch eben gemacht. Zweimal habe ich mich in meinen Änderungen direkt auf die Chunk-Nummer bezogen, was natürlich nicht mehr stimmt, sobald wir vorher Chunks hinzufügen. Habe die Nummern durch "next chunk" ersetzt.

Ich denke auch, dass es jetzt eigentlich reichen müsste. Bis morgen!

wbuerzle commented 5 years ago

DataBricks Skript xxx_TSWB_final beinhaltet jetzt auch die Auswertung der avg_rating. Der Boxplot ist aber nicht besonders aussägekräftig.

TSchiefer commented 5 years ago

habe nochmal meine Auswertung von # Reviews vs. salesrank abgeändert. Irgendwie hat der Barchart die Salesrank-Werte verändert, so dass komische, viel zu hohe Werte angezeigt wurden. Habe es jetzt mit Scatter-Plot und LOESS gemacht, siehe auch Präsi.

Der Name des Notebooks ist jetzt "AmazonProductData_analysis_final.ipynb"

wbuerzle commented 5 years ago

Ich habe bei der Auswertung der Produkte die sich gegenseitig referenzieren noch ausgewertet wie viele davon aus der gleichen Produktkategorie sind. Siehe auch Präsentation.