jacob-tho / Data-Engineering-Project-1

Erste eigene ETL-Pipeline für Stock-Daten
0 stars 0 forks source link

Load & Mining #2

Open jacob-tho opened 3 weeks ago

jacob-tho commented 3 weeks ago

@titzenic FYI: Es wird eine neue Spalte "rate_of_change" hinzugefügt Bei allen Aufgaben ist Visualisierung mit inbegriffen. Für Visualisierung entweder Matplotlib oder (bevorzugt) Seaborn.

Mögliche Aufgaben: SQL-Query-Abfrage: Wer hat den größten Gewinn / Verlust zum Vortag / Letzter Woche etc. gemacht? -> Automatische Visualisierung in einem Dashboard (Ohne GUI). Wie viel hat sich der Stock geändert seit Allzeithoch oder -tief? Auch über User-Input (mit Visualisierung) User-Input zur Zeitreihenvisualisierung des gewünschten Stocks.

Mining: Wenn auch nicht sonderlich korrekt für Zeitreihenanalyse, jedoch für den Einstieg sicherlich "ganz nett": Regressionsmodell. Finde optimalen Grad k des Polynoms und sage das nächste Datum voraus (inkl. Evaluation der vorherigen Prediction). Auch "für den Anfang" Random Forest, was auch nicht perfekt geeignet ist. Clustering (k-means, Canopy, DBSCAN) basierend auf Korrelationskoeffizienten. Weitere Ansätze hier: https://towardsdatascience.com/ml-approaches-for-time-series-4d44722e48fe https://machinelearningmastery.com/time-series-forecasting-methods-in-python-cheat-sheet/

jacob-tho commented 2 weeks ago

Evtl noch: Basic Statistik: Mean, Median, Variance, Std Deviation, Volatility Neue Features? Scaling, Standardisieren, Normalisieren? ACF, PACF Trends? Seasonality Patterns? Lag Analysis?

Klassisch für Zeitreihen: ARIMA / SARIMA, Garch, Prophet ML: Random Forest, Gradient Boosting, XGBosst, LSTM, Temporal Fusion Transformer

(Ist eher für mich ein kleiner Überblick)