Problem koji se rešava:
Implementacija agenta za Lunar Lander igru u programskom jeziku Python. Cilj igre je da se agent uspješno spusti na označeni dio, a da se pri tome ne slupa.
Algoritmi:
Koristiće se algoritam DQN.
Metrika za merenje performansi:
Cilj je da agent maksimizuje nagrade od reward funkcije koja gleda koliko efikasno je sletio.
Validacija rešenja:
Uzima se srednja vrijednost reward funckije nakon 1000 pokušaja agenta da se spusti. Zatim se promjenom podešavanja novi agent testira u narednih 1000 pokušaja i onda se njegova srednja vrijednost poredi sa prethodnom.
Članovi tima: Bane Gerić SW47/2019 (grupa 4)
Asistent: Branislav Anđelić
Problem koji se rešava: Implementacija agenta za Lunar Lander igru u programskom jeziku Python. Cilj igre je da se agent uspješno spusti na označeni dio, a da se pri tome ne slupa.
Algoritmi: Koristiće se algoritam DQN.
Metrika za merenje performansi: Cilj je da agent maksimizuje nagrade od reward funkcije koja gleda koliko efikasno je sletio.
Validacija rešenja: Uzima se srednja vrijednost reward funckije nakon 1000 pokušaja agenta da se spusti. Zatim se promjenom podešavanja novi agent testira u narednih 1000 pokušaja i onda se njegova srednja vrijednost poredi sa prethodnom.