Bojan Mijanović SV8/2020 (na službi 1. grupa al slušam sa 5. grupom)
Dušan Rožić SV80/2020 (5. grupa)
Asistent:
Filip Volarić
Problem koji se rešava:
Cilj ovog problema je naučiti agenata (automobil) kako da se kreće po stazi u što kraćem vremenskom periodu.
U ovom okruženju, agent (automobil) ima pristup stanju igre, kao što su položaj i brzina automobila, ugao i brzina zakretanja volana, te senzori koji detektuju prepreke i udaljenost od ivica staze.
Ovo okruženje koristi Box2D engine iz gymnasium biblioteke. To uključuje ubrzanje, brzinu, trenje, gravitaciju, sudare i druge sile koje deluju na automobil.
Algoritmi:
Deep Q Learning
Proximal Policy Optimization
Metrika za merenje performansi:
Nagrada je -0.1 za svaki frejm, a +1000/N za svaki posećeni segment staze, gde je N ukupan broj posećenih segmenata u stazi. Na primer, ako je završeno u 732 frejma, nagrada je 1000 - 0.1*732 = 926.8 bodova.
Validacija rešenja:
Epizoda se završava kada se posete svi segmenti. Automobil takođe može da ode van staze, kada će dobiti kaznu od -100 bodova i izgubiti.
Članovi tima:
Asistent:
Problem koji se rešava:
Algoritmi:
Metrika za merenje performansi:
Validacija rešenja: