Wenn ein Prozessschritt durchgelaufen ist liegen die erzeugten Dateien zunächst in output/. Bevor die Dateien in den folgenden xx-temp/ geschoben werden, werden die Tests durchgeführt.
Übersicht Tests für Daten
Tests innerhalb einer Datei
[x] Primary keys sind unique (siehe primary_key)
[x] Range tests (siehe min und max)
[x] Categories (values) prüfen, dass keine Werte in den Daten sind die in den Metadaten fehlen. --> weicher Fehler, weil teilweise legitim. Beispiel 11-Skala: nur 0 und 10 sind gelabelt, aber 1–9 dürfen natürlich vorkommen.( --> Idee: betrachte values als min/max Definition)
[x] type prüfen (z.B. keine Strings bei number)
Datei-übergreifende Tests
[x] Foreign key existiert (siehe foreign_key)
Übersicht Tests für Metadaten
[ ] Prüft, ob eine Liste von Dateien mit den Angaben in einer anderen Dateien übereinstimmt, siehe folgendes Beispiel.
Es gibt in den Metadaten eine Datei datasets.csv mit der Liste aller Datensätze. Zusätzlich werden alle Datensätze im Unterordner datasets/ dokumentiert. --> Zu testen wäre, dass die Liste der Datensätze in der CSV Datei und die Liste der JSON-Dateien in datasets/ übereinstimmen.
Anpassungen der .json Metadata
[x] Neues Feld primary_key: true or false
[x] Neues Feld foreign_key: <dataset_name>/<variable_name> (Beispiel pl/hid verweißt auf hl/hid)
Durchführung der Tests
Wenn ein Prozessschritt durchgelaufen ist liegen die erzeugten Dateien zunächst in
output/
. Bevor die Dateien in den folgendenxx-temp/
geschoben werden, werden die Tests durchgeführt.Übersicht Tests für Daten
Tests innerhalb einer Datei
primary_key
)min
undmax
)values
) prüfen, dass keine Werte in den Daten sind die in den Metadaten fehlen. --> weicher Fehler, weil teilweise legitim. Beispiel 11-Skala: nur 0 und 10 sind gelabelt, aber 1–9 dürfen natürlich vorkommen.( --> Idee: betrachtevalues
als min/max Definition)type
prüfen (z.B. keine Strings bei number)Datei-übergreifende Tests
foreign_key
)Übersicht Tests für Metadaten
Es gibt in den Metadaten eine Datei
datasets.csv
mit der Liste aller Datensätze. Zusätzlich werden alle Datensätze im Unterordnerdatasets/
dokumentiert. --> Zu testen wäre, dass die Liste der Datensätze in der CSV Datei und die Liste der JSON-Dateien indatasets/
übereinstimmen.Anpassungen der .json Metadata
primary_key
:true
orfalse
foreign_key
:<dataset_name>/<variable_name>
(Beispielpl/hid
verweißt aufhl/hid
)min
undmax