SilkeDH / lossy-ml

Lossy Compression Algorithm for Climate Data
3 stars 0 forks source link

Aufgabenbestimmung #3

Closed ucyo closed 2 years ago

ucyo commented 4 years ago

Table of Contents

  1. Ziel
  2. Methodik
    1. ML-Lernziele
    2. Mögliche Features
  3. Implementierung
  4. Literaturliste
    1. Paper
    2. Bücher
  5. Sonstiges
    1. Methodik::Lernziele

Ziel

Das Ziel der Arbeit ist es einen größtmöglichen Impact beim Kompressionsfaktor von Klimadaten zu erreichen. Deshalb konzentriert sich die Arbeit auf die Erlernung von Prediktoren für Klimadaten. Diese Prediktoren können mit (verlustfreier oder -behafteten) Kodierungsalgorithmen erweitert werden, um einen kompletten Kompressionsalgorithmus zu definieren. Der Algorithmus kann dann mit etablierten Algorithmen getestet werden. Für verlustbehaftete Kompression wären diese SZ und zfp. Für verlustfreie Algorithmen wäre dies fpzip und pzip.

Methodik

Eine Einschränkung in der Wahl der passenden ML-Verfahren ist nicht vorgesehen. Es können alle zur Verfügung stehenden (Un)Supervised-Learning-Verfahren sowie Reinforcement-Learning-Verfahren angewendet werden. Aufgrund der Tatsache, dass die Daten physikalische Prozesse wiedergeben und das notwendige Expertenwissen am IMK, ITI und SCC vorhanden ist, könnte es sinnvoll sein, mit Supervised-Learning-Verfahren anzufangen.

Um schnell erste Ergebnisse zu bekommen, soll mit einer einfachen Travesierung (z.B. zeilen- oder spaltenweise) der Daten begonnen werden. Die Grundidee ist es durch die Verwendung unterschiedlicher Stencil einen guten Prediktor zu erlernen. Hierbei muss gelernt werden wann welcher Stencil verwendet werden soll. Es ist sehr wahrscheinlich, dass eine Aufteilung des Datensatzes erforderlich ist um eine parallele Verarbeitung zu gewährleisten; das muss sich aber aus dem Training zeigen.

Die Betrachtung von ML Methoden aus der Bild- und Videokompression kann sinnvoll sein. Bei der Bildkompression sind Methoden aus der Bildsegmentierung von Interesse. Bei der Videokompression könnten Erfahrungen aus der Objektverfolgung mit ML näher betrachtet werden. Die Erweiterung dieser Verfahren von zwei (bzw. drei) Dimensionen auf mehrere Dimensionen stellt eine Herausforderung dar. kann aber bei der Segmentierung der Daten helfen.

ML-Lernziele

Im Anschluss ist eine Liste an ML-Lernzielen, welche helfen können einen guten Prediktor zu entwickeln.

Mögliche Features

Die folgende Liste ist eine Zusammenstellung von moeglichen Features, welche bei der Erlernung der oben genannten Ziele helfen koennen.

Implementierung

Literaturliste

In Anschluss eine kleine Auswahl an Literatur. Diese Liste ist nicht vollständig und sollte erweitert werden.

Paper

Dies ist nur eine Auswahl von Papern, welche interessant sein könnten. Sie beschäftigen sich nicht direkt mit der Kompression von Klimadaten. Eine tiefer gehende Untersuchung vorhandener Literatur ist notwendig. Die folgende Liste ist aus dem Foliensatz vom Treffen am 30.07.2020:

Bücher

In folgenden ist eine Liste von Büchern, welche interessant sein könnten.

Sonstiges

Methodik::Lernziele