Das Ziel der Arbeit ist es einen größtmöglichen Impact beim Kompressionsfaktor von Klimadaten zu erreichen. Deshalb konzentriert sich die Arbeit auf die Erlernung von Prediktoren für Klimadaten. Diese Prediktoren können mit (verlustfreier oder -behafteten) Kodierungsalgorithmen erweitert werden, um einen kompletten Kompressionsalgorithmus zu definieren. Der Algorithmus kann dann mit etablierten Algorithmen getestet werden. Für verlustbehaftete Kompression wären diese SZ und zfp. Für verlustfreie Algorithmen wäre dies fpzip und pzip.
Methodik
Eine Einschränkung in der Wahl der passenden ML-Verfahren ist nicht vorgesehen. Es können alle zur Verfügung stehenden (Un)Supervised-Learning-Verfahren sowie Reinforcement-Learning-Verfahren angewendet werden. Aufgrund der Tatsache, dass die Daten physikalische Prozesse wiedergeben und das notwendige Expertenwissen am IMK, ITI und SCC vorhanden ist, könnte es sinnvoll sein, mit Supervised-Learning-Verfahren anzufangen.
Um schnell erste Ergebnisse zu bekommen, soll mit einer einfachen Travesierung (z.B. zeilen- oder spaltenweise) der Daten begonnen werden. Die Grundidee ist es durch die Verwendung unterschiedlicher Stencil einen guten Prediktor zu erlernen. Hierbei muss gelernt werden wann welcher Stencil verwendet werden soll. Es ist sehr wahrscheinlich, dass eine Aufteilung des Datensatzes erforderlich ist um eine parallele Verarbeitung zu gewährleisten; das muss sich aber aus dem Training zeigen.
Die Betrachtung von ML Methoden aus der Bild- und Videokompression kann sinnvoll sein. Bei der Bildkompression sind Methoden aus der Bildsegmentierung von Interesse. Bei der Videokompression könnten Erfahrungen aus der Objektverfolgung mit ML näher betrachtet werden. Die Erweiterung dieser Verfahren von zwei (bzw. drei) Dimensionen auf mehrere Dimensionen stellt eine Herausforderung dar. kann aber bei der Segmentierung der Daten helfen.
ML-Lernziele
Im Anschluss ist eine Liste an ML-Lernzielen, welche helfen können einen guten Prediktor zu entwickeln.
Lernen von unterschiedlichen Stencils
Lernen von Wechseln zwischen Stencils
Lernen von Unterteilung des Datensatzes für passende Stencils
Lernen von wichtigen Features (i.e. Featureselection)
…
Mögliche Features
Die folgende Liste ist eine Zusammenstellung von moeglichen Features, welche bei der Erlernung der oben genannten Ziele helfen koennen.
Modellentwicklung in etablierter ML/AI Software wie Python
Falls der Kompressionsfaktor zufriedenstellend ist (muss noch bestimmt werden), kann im zweiten Schritt die Performance betractet werden. Hier kann eine Applikation in C++ geschrieben werden, welche die Modellparameter einliest und die Kompression durchfuehrt. Nicht für den erfolgreichen Abschluss der Masterarbeit notwendig.
Literaturliste
In Anschluss eine kleine Auswahl an Literatur. Diese Liste ist nicht vollständig und sollte erweitert werden.
Paper
Dies ist nur eine Auswahl von Papern, welche interessant sein könnten. Sie beschäftigen sich nicht direkt mit der Kompression von Klimadaten. Eine tiefer gehende Untersuchung vorhandener Literatur ist notwendig.
Die folgende Liste ist aus dem Foliensatz vom Treffen am 30.07.2020:
Lossless Image Compression through Super-Resolution [2020, #image]
Estimating Lossy Compressibility of Scientific Data Using Deep Neural Networks [2020, #float]
Adaptive Deep Learning based Time-Varying Volume Compression [2020, #float]
Wavefield compression for seismic imaging via convolutional neural networks [2019, #float]
Lossless Data Compression with Neural Networks [2019, #text]
DeepFovea: Neural Reconstruction for Foveated Rendering and Video Compression using Learned Statistics of Natural Videos [2019, #video]
Bücher
In folgenden ist eine Liste von Büchern, welche interessant sein könnten.
Deep Learning (dt. Titel Deep Learning: Das umfassende Handbuch)
Pattern Recognition and Machine Learning
Compression Methods for Structured Floating-Point Data and their Application in Climate Research
Meine Dissertation
Chaos Theory
Erklärung von Modellen mit chaotischem Charakter (wie Klimamodelle)
Klimakunde: Wetter, Klima und Atmosphäre
Oberstufeniteratur aber ein sehr guter erster Einstieg in die Klimawissenschaften
KLIMA - Die Erde und ihre Atmosphäre im Wandel der Zeiten
Ein sehr tiefer Einstieg in die Klimawissenschaften
Sonstiges
Methodik::Lernziele
Lernen der Berechnung von diagnostischen Variablen aus prognostischen VariablenDieser Punkt ist mir erst im Nachhinein eingefallen. In den Klimawissenschaften werden Variablen in sogenannte prognostische und diagnostische Variablen unterteilt. Der Unterschied zwischen den beiden Typen ist, dass prognostische Variablen direkt von den Klimamodellen berechnet werden und diagnostische Variablen aus den prognostischen Variablen heraus berechnet werden können. Eine solche prognostische Variable ist die relative Luftfeuchte, welche aus den prognostischen Variablen Temperatur und Wasserdampf berechnet werden kann.
Table of Contents
Ziel
Das Ziel der Arbeit ist es einen größtmöglichen Impact beim Kompressionsfaktor von Klimadaten zu erreichen. Deshalb konzentriert sich die Arbeit auf die Erlernung von Prediktoren für Klimadaten. Diese Prediktoren können mit (verlustfreier oder -behafteten) Kodierungsalgorithmen erweitert werden, um einen kompletten Kompressionsalgorithmus zu definieren. Der Algorithmus kann dann mit etablierten Algorithmen getestet werden. Für verlustbehaftete Kompression wären diese SZ und zfp. Für verlustfreie Algorithmen wäre dies fpzip und pzip.
Methodik
Eine Einschränkung in der Wahl der passenden ML-Verfahren ist nicht vorgesehen. Es können alle zur Verfügung stehenden (Un)Supervised-Learning-Verfahren sowie Reinforcement-Learning-Verfahren angewendet werden. Aufgrund der Tatsache, dass die Daten physikalische Prozesse wiedergeben und das notwendige Expertenwissen am IMK, ITI und SCC vorhanden ist, könnte es sinnvoll sein, mit Supervised-Learning-Verfahren anzufangen.
Um schnell erste Ergebnisse zu bekommen, soll mit einer einfachen Travesierung (z.B. zeilen- oder spaltenweise) der Daten begonnen werden. Die Grundidee ist es durch die Verwendung unterschiedlicher Stencil einen guten Prediktor zu erlernen. Hierbei muss gelernt werden wann welcher Stencil verwendet werden soll. Es ist sehr wahrscheinlich, dass eine Aufteilung des Datensatzes erforderlich ist um eine parallele Verarbeitung zu gewährleisten; das muss sich aber aus dem Training zeigen.
Die Betrachtung von ML Methoden aus der Bild- und Videokompression kann sinnvoll sein. Bei der Bildkompression sind Methoden aus der Bildsegmentierung von Interesse. Bei der Videokompression könnten Erfahrungen aus der Objektverfolgung mit ML näher betrachtet werden. Die Erweiterung dieser Verfahren von zwei (bzw. drei) Dimensionen auf mehrere Dimensionen stellt eine Herausforderung dar. kann aber bei der Segmentierung der Daten helfen.
ML-Lernziele
Im Anschluss ist eine Liste an ML-Lernzielen, welche helfen können einen guten Prediktor zu entwickeln.
Mögliche Features
Die folgende Liste ist eine Zusammenstellung von moeglichen Features, welche bei der Erlernung der oben genannten Ziele helfen koennen.
Implementierung
Literaturliste
In Anschluss eine kleine Auswahl an Literatur. Diese Liste ist nicht vollständig und sollte erweitert werden.
Paper
Dies ist nur eine Auswahl von Papern, welche interessant sein könnten. Sie beschäftigen sich nicht direkt mit der Kompression von Klimadaten. Eine tiefer gehende Untersuchung vorhandener Literatur ist notwendig. Die folgende Liste ist aus dem Foliensatz vom Treffen am 30.07.2020:
Bücher
In folgenden ist eine Liste von Büchern, welche interessant sein könnten.
Meine Dissertation
Erklärung von Modellen mit chaotischem Charakter (wie Klimamodelle)
Oberstufeniteratur aber ein sehr guter erster Einstieg in die Klimawissenschaften
Ein sehr tiefer Einstieg in die Klimawissenschaften
Sonstiges
Methodik::Lernziele