Open TSchiefer opened 5 years ago
Nochmal ein Update von "analysis/AmazonProductData_analysis_TS.ipynb" hochgeladen in 7559f92e27b683fa8f1c3eef8a0abfbedbb5a8e8
das mit den "strongly connected components" scheint schon zu klappen, es kommt was leidlich Sinnvolles dabei raus. Auf der anderen Seite ist das Ergebnis von 6751 "Clustern" in einem Datensatz von lediglich 10611 Produkten schon ganz schön hoch... Aber positiv ist, dass die meisten Cluster nur zu einer Gruppe gehören.
Gerade nochmal das Notebook etwas abgeändert/ergänzt.
FYI: die Berechnung der "strongly connected components"-Cluster dauert ca. 1 Stunde 10 Minuten.
Grossartig was du da alles gemacht hast!
Habe mir heute alles angeschaut und meine Teile noch ein klein bissen überarbeitet und ein paar alte Kommentare gelöscht.
Ich finde das sollte so passen und genügen.
Danke! Beim nochmaligen Anschauen habe ich gedacht, dass man noch die Anzahl Edges ins Notebook aufnehmen könnte. Habe das noch eben gemacht. Zweimal habe ich mich in meinen Änderungen direkt auf die Chunk-Nummer bezogen, was natürlich nicht mehr stimmt, sobald wir vorher Chunks hinzufügen. Habe die Nummern durch "next chunk" ersetzt.
Ich denke auch, dass es jetzt eigentlich reichen müsste. Bis morgen!
DataBricks Skript xxx_TSWB_final beinhaltet jetzt auch die Auswertung der avg_rating. Der Boxplot ist aber nicht besonders aussägekräftig.
habe nochmal meine Auswertung von # Reviews vs. salesrank abgeändert. Irgendwie hat der Barchart die Salesrank-Werte verändert, so dass komische, viel zu hohe Werte angezeigt wurden. Habe es jetzt mit Scatter-Plot und LOESS gemacht, siehe auch Präsi.
Der Name des Notebooks ist jetzt "AmazonProductData_analysis_final.ipynb"
Ich habe bei der Auswertung der Produkte die sich gegenseitig referenzieren noch ausgewertet wie viele davon aus der gleichen Produktkategorie sind. Siehe auch Präsentation.
@wbuerzle Hab noch ein wenig meinen Senf zur Analyse dazugegeben im File: "analysis/AmazonProductData_analysis_TS.ipynb"
Der vorletzte Chunk dauert lange, wie auch schon beim Beispiel mit den Flights. Hier werden die stark verbundenen Komponenten bestimmt. Zum Zeitpunkt des Hochladens nach git war die Berechnung bei mir noch nicht fertig, also weiss ich nicht, ob etwas Nützliches dabei rauskam.