Fuenfgeld / DMA2024TeamC

MIT License
2 stars 0 forks source link

Projekt CALICO-MA: CAncer LIfe COst Study for Massachusetts

| Gruppe DMA2024TeamC

Dashboard

Dashboard der Forschungsergebnisse

CALICO-MA ist ein Data Management Projekt zu Studienzwecken im Rahmen des Berufsbegleitenden Online-Master „Biomedizinische Informatik und Data Science“ der Hochschule Mannheim. Anhand des Projekts werden die spezifischen Kosten für verschiedene Krebserkrankungen, sowie die lebenslangen Kosten für Patienten und das Gesundheitssystem untersucht. Zudem wird der Frage nachgegangen, ob höhere Behandlungskosten zugleich mit einer besseren Lebensqualität einhergehen und ob geografische Unterschiede zwischen verschiedenen Countys im Bundesstaat Massachusetts vorhanden sind. Konkret werden die Fragen anhand von synthetischen Patientendaten zu Brust-, Darm- und Lungenkrebs beantwortet Synthea TM (Walonoski et al. 2017).

📚 Die Dokumentation des Projektes steht unter CALICO-MA WIKI zur Verfügung.

Das Projekt entstand über mehrere Entwicklungsschritte: Ein vertiefter Einblick ist dem WIKI-Abschnitt Projekt Backlog zu entnehmen.

📊 Die entstandenen Ergebnisse werden unter Ergebnisse dargestellt

Überblick der Projektschritte und des Datenflusses

Projektdiagramm

Codeentwicklung

In dem Order Code sind die beiden Jupyter Notebook Scripte ETL2Datawarehouse.ipynb für den ETL-Prozess und DWH_GeoVisualisierung.ipynb für die Explorative Datenanalyse abgelegt.

In diesen beiden Jupyter Notebooks sind jeweils die links zu Google Colab zu finden um diese in der dortigen Umgebung auszuführen. Die benötigten Bibliotheken werden am Anfang der Scripte geladen. Zudem wird eine Verbindung zum persönlichen Google Drive hergestellt und in diesem das Repository geclont um die benötigten CSV-Daten zur erhalten.

Für das Ausführen der Scripte außerhalb von Google Colab (z.B. wie in diesem Projekt das lokal genutzte MS Visual Studio Code mit Windows Subsystem für Linux, Ubuntu 22.04.3 LTS) wurde für die Python-Verwaltung Poetry verwendet. Die hierfür nötigen Konfigurationsdateien poetry.lock und pyproject.toml sind unter Code zu finden.

Für den Low-Code-Pfad wurde eine Testversion von Tableau Prep Builder Version 2023.1.3 (23.13.23.0614.0602) verwendet, um die vereinigten Tabellen mit den drei Krebsarten und die Eingabedatei Fact_table.csv zu generieren, die für die Erstellung des Ergebnis-Dashboards verwendet werden kann (erstellt mit der kostenlosen Plattform Tableau Public).

Die detaillierte Dokumentation der mit Tableau durchgeführten Datenaufbereitung und -transformation finden Sie unter dem Kapitel 4.1 ETL Low Code (Tableau) in unserem Projekt-Repository hier in Github. geocodio wurde verwendet, um die fehlenden Daten der Postleitzahlen zu ergänzen (46 % der Patienten hatten keine Postleitzahl in der Patiententabelle), die für die Erstellung des Ergebnis-Dashboards in Tableau Public benötigt wurden. Die Tabelle mit den vollständigen Informationen zu den Postleitzahlen finden Sie hier facts_table_complete_ZIP.csv.

Hinweis zur Reproduzierbarkeit

Die Rohdaten können über die Module Breast-Cancer, Lung-Cancer und Colorectal-Cancer von Synthea TM bezogen werden. Die betreffenden Daten können im Rahmen unserer Datendokumentation eingesehen werden.

Für die statistische Analyse und das Machine Learning Modell benötigte Daten wurden im Zuge des Einlesen der Datenbank aggregiert und sind anhand des Codes einsehbar.