ftn-ai-lab / nm-2023

Neuronske mreže 2023/2024
MIT License
1 stars 0 forks source link

Treniranje robotske ruke za pomeranje objekta uz pomoć reinforcement learning-a #9

Open darkotica opened 6 months ago

darkotica commented 6 months ago

Tim

Darko Tica, R2-20/2022

Definicija problema

Simuliranje pomeranja robotske ruke u prostoru, pri čemu je njen cilj pomeranje objekta od početne tačke do cilja. Ideja je da se robotska ruka, koja može imati više stanja koja nisu diskretna (xyz pozicija "prsta", uglovi "šake" i "ramena" itd.) uz pomoć reinforcement learning-a nauči da pomeri objekat na ciljnu tačku (poput pusher primera okruženja u farama gymnasiumu - Farama predstavlja fork od OpenAI gym-a i koristi MuJoCo za kreiranje simuliranog okruženja). Takođe, ukoliko to ne bude previše zahtevno za implementirati u samom MuJoCo okruženju, dodati i zidove koje bi robot morao da izbegava da bi odgurao objekat do cilja.

Skup podataka

S obzirom da se radi o reinforcement learning-u, nije potreban skup podataka.

Metodologija

Za potrebe treniranja i simulacije biće iskoršićeno već definisano okruženje (poput pomenutog pusher-a) ili kreirano novo, custom okruženje uz pomoć MuJoCo biblioteke (u slučaju dodavanja zidova npr). U oba slučaja, da bi reinforcement learning mogao da funkcioniše, potrebno je odrediti sledeće informacije o okruženju (detaljan spisak):

Ukoliko se bude kreiralo custom okruženje, potencijalno mogu biti dodate/uklonjene neke akcije/obzervacije/nagrade. Sama robotska ruka koristiće neuronsku mrežu (najverovatnije će to biti obična DNN sa nekoliko slojeva), koja će na osnovu obzervacija i nagrada doneti odluku o akcijama koje trebaju da se izvrše. Za sam reinforcement learning odnosno treniranje mreže, biće korišćeni neki algoritmi iz StableBaseline biblioteke (kao što su TD3 ili SAC - na osnovu testiranja različitih algoritama odabraće se onaj sa najboljim rezultatima).

Evaluacija

Rešenje će biti evaluirano na sledeći način:

vdragan1993 commented 5 months ago

Tema odobrena. Ostavite link ka GitHub repozitorijumu projekta. Srećan rad.