Implementieren eines einfachen Q-Learning Algorithmus, der aus Interaktion mit einer Umgebung lernt.
Im ersten Schritt implementieren wir ein diskretes deterministisches Modell in einer statischen Umgebung. Das Modell soll dann in einem zweiten Schritt auf eine stochastische Umgebung erweitert werden und falls der Umfang des Projekts das zu lässt in einem weiteren Schritt auf eine dynamische Umgebung angepasst werden.
Implementieren eines einfachen Q-Learning Algorithmus, der aus Interaktion mit einer Umgebung lernt.
Im ersten Schritt implementieren wir ein diskretes deterministisches Modell in einer statischen Umgebung. Das Modell soll dann in einem zweiten Schritt auf eine stochastische Umgebung erweitert werden und falls der Umfang des Projekts das zu lässt in einem weiteren Schritt auf eine dynamische Umgebung angepasst werden.