Eine Einführung in moderne Techniken der Datenanalyse mit R
Sebastian Sauer, 2018
Das Buch 'Datenanalyse mit R' gibt eine Einführung zu aktuellen Techniken der Datenanalyse mit R. Der Schwerpunkt liegt auf der Anwendung, weniger auf den theoretischen Hintergründen. Zielgruppe sind Studierenden und Praktiker, die gängige Fragestellungen der Datenanalyse bearbeiten möchten. Anhand des typischen Ablaufs von Datenanalyse-Projekten werden wichtige Probleme besprochen und Lösungen demonstriert. Leser sollen befähigt werden, die vorgestellten Fragestellungen selber lösen zu können - und zwar lösen in dem Sinne, dass nicht (nur) ein theoretisches Verständnis vorliegt, sondern dass aus echten Daten Ergebnisse von statistischen Modellen berechnet und interpretiert werden können. Dabei werden die Phasen des Daten einlesen, Daten aufbereitens, Daten visualisieren, Daten modellieren und Ergebnisse kommunizieren diskutiert. Mehrere Datensätzen aus angewandten wirtschaftlichen Kontexten fließen ein; jedes Problem wird an echten Daten diskutiert. R wird als reichhaltige Analyseumgebung eingeführt und konsequent genutzt; der Stil der R-Verwendung ist von aktuellen Konzepten wie denen des "tidyverse" geprägt. Es werden sowohl grundlegende, einfache als auch partikulare, komplexere Themen besprochen. Zu jedem Kapitel liegen Übungsaufgaben vor, um das Gelernte zu vertiefen. Neben klassischen statistischen Themen wie explorative Datenanalyse und inferenzstatistische Konzepte und Teste fließen moderne Verfahren wie baumbasierte Methoden, Textmining und statistisches Lernen reichhaltig ein.
Vorwort
I Rahmen 1
1 Statistik heute
2 Hallo, R
3 R starten
4 ERRRstkontakt
II Daten einlesen
5 Datenstrukturen
6 Datenimport
III Daten aufbereiten
7 Datenjudo
8 Deskriptive Statistik
9 Praxisprobleme der Datenaufbereitung
10 Fallstudie: Datenjudo
IV Daten visualisieren
11 Grundlagen der Datenvisualisierung mit ggplot2
12 Fortgeschrittene Themen der Visualisierung
13 Fallstudie: Visualisierung
14 Geovisualisierung
V Modellieren
15 Grundlagen des Modellierens
16 Inferenzstatistik
17 Simulation der Stichprobenverteilung
VI Geleitetes Modellieren
18 Lineare Modelle
19 Klassifizierende Regression
20 Fallstudie: Titanic
21 Baumbasierte Verfahren
22 Prädiktive Modellierung von Kreditwürdigkeit mit caret
VII Ungeleitetes Modellieren
23 Clusteranalyse
24 Grundlagen des Textmining
25 Fallstudie: Twitter-Mining
VIII Kommunizieren
26 RMarkdown
IX Rahmen 2
27 Fallstudie zum Projektmanagement
28 Programmieren mit R
29 Programmieren mit dplyr
Anhang
ALLE CSV-DATENSÄTZE als Zip-Archiv
ALLE Rdata-DATENSÄTZE als Zip-Archiv