Open TSchiefer opened 5 years ago
hier zunächst mal meine Ausgangsposition, ich habe Bernd's Notebook von gestern am Ende abgeändert, so dass die Mittelwerte von allen Gasen berechnet werden (ich habe auch über alle Stationen gemittelt, da das Mittel über alle Stationen ja eigentlich schon eine Aussage hat, so etwas wie ein allgemeiner Trend in Madrid):
air_df_grouped = air_df_new.groupBy('date').agg({'CO': 'mean', 'EBE': 'mean', 'NO_2': 'mean', 'O_3': 'mean', 'PM10': 'mean', 'SO_2': 'mean'})
(BEN fehlt hier, kennt ja aber auch niemand, oder!? :) )
alles zu Pandas:
pd_air_df_grouped = air_df_grouped.toPandas()
CO-Plot:
pd_air_df_grouped.plot(x='date', y='avg(CO)')
display()
O_3 Plot:
pd_air_df_grouped.plot(x='date', y='avg(O_3)')
display()
NO_2 Plot:
pd_air_df_grouped.plot(x='date', y='avg(NO_2)')
display()
SO_2 Plot
pd_air_df_grouped.plot(x='date', y='avg(SO_2)')
display()
Sind schon ein paar ganz interessante Entwicklungen dabei, finde ich.
@Eckeau wurdest Du über dieses neue Issue informiert? Wenn nicht, dann kannst Du im auf der github.com-Seite dieses Repos oben, gleich rechts neben dem Titel auf "Watch" klicken. Dann müsstest Du eigentlich über die meisten Aktivitäten informiert werden.
Hallo zusammen. Ich habe nochmal eine neue Version raufgestellt, die die Operationen in der richtigen Reihenfolge enthält. Alles nach dem Kreieren des Parquet Formats kann man eigentlich weglassen. Da startet dann Dein Teil Tobias. Wir sollten noch eine schlaue Query haben, die die Performance Unterschiede von CSV und Parquet zeigt und die Execution Pläne. Irgendwelche Ideen?
Ich habe auch ein paar Plots gemacht. Werde sie gleich noch in die Präsentation integrieren, dann könnt ihr sie sehen ;-)
Sehe ich das richtig dass wir noch keine Auswertung haben die weather und air verknüpft? Das war ja der Grund für die Übung mit dem Datum.
Vielleicht können wir hier mal interessante Ideen/Code für Plots zusammentragen. Käme sicher ganz gut für die Präsi