Članovi tima:
Aleksandar Nedaković SW-21/2016, grupa I
Asistent:
Aleksandar Lukić
Problem koji se rešava:
Obučavanje agenta koji igra Atari Breakout i za cilj ima da maksimizuje skor. Skor se dobija uspešnim razbijanjem bloka, tako što se pogodi lopticom. Igra se završava u trenutku kada loptica padne na zemlju pored platforme koju agent pomera.
Agent kao ulaz dobija 128 bajta koji predstavljaju stanje igre u RAM-u Atari mašine na kojoj se igra izvršava. Kao izlaz, agent daje jedan od dve moguće akcije: pomeranje platforme u levo ili u desno.
Algoritam/algoritmi:
Koristi se Deep Reinforcement Learning (DRL), a kao stanje igre se posmatra 128 bajta koji predstavljaju RAM.
DRL predstavlja usavršenu verziju Approximate Q-Learning algoritma, koji predstavlja unapređenje klasičnog Q-Learning-a. Kod klasičnog Q-Learning algoritma, svakom paru stanja igre i akcije koja se može izvršiti u njoj (s, a) se dodeljuje vrednost koja nam govori koliko je ta akcija "isplativa", to jest koliko nas vodi ka cilju. Mana ovog pristupa je postojanje ogromnog broja stanja u kom igra može da se nalazi, te je skoro nemoguće istrenirati agenta da se optimalno ponaša u svakom stanju.
Approximate Q-Learning rešava taj problem tako što se stanje predstavlja pomoću ljudski izabranih feature-a koji se dalje množe parametrima koji se treniranjem optimizuju. Mana ovog pristupa je što čovek mora da odredi feature koji će se posmatrati, što je jako teško uraditi nad 128 bajta koji predstavljaju sadržaj RAM-a. DRL rešava ovaj problem, jer proces određivanja feature-a prepušta neuronskoj mreži.
Koristiće se fully connected neruonska mreža, koja će se povezivati sa svakim od bajteva ulaza, a na svom izlazu će davati dve vrednosti: procenu povoljnosti odabira za svaku od dve akcije.
Koristiće se i Experience Replay tehnika, kojom se iskustva (četvorke: stanje, akcija, nagrada, novo stanje) čuvaju u memoriji. Obučavanje se u svakoj iteraciji vrši, umesto pomoću samo poslednjeg dobijenog iskustva, nad nasumično izabranim podskupom iskustava iz te memorije.
Metrika za merenje performansi:
Posmatranje kranjeg skora (skor koji je agent uspeo da postigne pre nego što mu je ispala loptica). U slučaju da postigne dovoljan nivo ekspertize, te mu loptica nikad ne ispada, posmtraće se i vreme potrebno da očisti sve blokove.
Članovi tima: Aleksandar Nedaković SW-21/2016, grupa I
Asistent: Aleksandar Lukić
Problem koji se rešava: Obučavanje agenta koji igra Atari Breakout i za cilj ima da maksimizuje skor. Skor se dobija uspešnim razbijanjem bloka, tako što se pogodi lopticom. Igra se završava u trenutku kada loptica padne na zemlju pored platforme koju agent pomera. Agent kao ulaz dobija 128 bajta koji predstavljaju stanje igre u RAM-u Atari mašine na kojoj se igra izvršava. Kao izlaz, agent daje jedan od dve moguće akcije: pomeranje platforme u levo ili u desno.
Algoritam/algoritmi: Koristi se Deep Reinforcement Learning (DRL), a kao stanje igre se posmatra 128 bajta koji predstavljaju RAM. DRL predstavlja usavršenu verziju Approximate Q-Learning algoritma, koji predstavlja unapređenje klasičnog Q-Learning-a. Kod klasičnog Q-Learning algoritma, svakom paru stanja igre i akcije koja se može izvršiti u njoj (s, a) se dodeljuje vrednost koja nam govori koliko je ta akcija "isplativa", to jest koliko nas vodi ka cilju. Mana ovog pristupa je postojanje ogromnog broja stanja u kom igra može da se nalazi, te je skoro nemoguće istrenirati agenta da se optimalno ponaša u svakom stanju. Approximate Q-Learning rešava taj problem tako što se stanje predstavlja pomoću ljudski izabranih feature-a koji se dalje množe parametrima koji se treniranjem optimizuju. Mana ovog pristupa je što čovek mora da odredi feature koji će se posmatrati, što je jako teško uraditi nad 128 bajta koji predstavljaju sadržaj RAM-a. DRL rešava ovaj problem, jer proces određivanja feature-a prepušta neuronskoj mreži. Koristiće se fully connected neruonska mreža, koja će se povezivati sa svakim od bajteva ulaza, a na svom izlazu će davati dve vrednosti: procenu povoljnosti odabira za svaku od dve akcije. Koristiće se i Experience Replay tehnika, kojom se iskustva (četvorke: stanje, akcija, nagrada, novo stanje) čuvaju u memoriji. Obučavanje se u svakoj iteraciji vrši, umesto pomoću samo poslednjeg dobijenog iskustva, nad nasumično izabranim podskupom iskustava iz te memorije.
Metrika za merenje performansi: Posmatranje kranjeg skora (skor koji je agent uspeo da postigne pre nego što mu je ispala loptica). U slučaju da postigne dovoljan nivo ekspertize, te mu loptica nikad ne ispada, posmtraće se i vreme potrebno da očisti sve blokove.
Validacija rešenja: Porediće se postignute performanse sa performansama koje lično mogu da ostvarim igrajući ovu igru, kao i performanse koje su tuđi agenti ostvarili (blog na kom je opisan sličan pristup ovoj igri i koji sadrži krajnje performanse agenta).