Closed fxbk closed 3 years ago
@rkstgr reicht es nicht ein Agent immer trainieren zu lassen? Der andere bekommt dann einfach die Modelle von dem anderen
ja würde eigentlich reichen, wir müssten nach jedem step nur dem anderen agent die geupdatete action & critic parameters geben
Mit dem Learner können wir nur schneller replays sammeln (aka parallelisation on multiple cores)
Ja macht Sinn. Können wir uns ja mal vormerken ;)
Closed since the project transitioned to using ray rllib which includes a learner
also evtl brauchen wir noch einen Learner, der sich die replaybuffer von allen agents zieht (können auch 10 sein) dann die gradient steps macht, und all den agents dann das neue modell zurück gibt
Originally posted by @rkstgr in https://github.com/cerebro-ai/lux-ai-2021/issues/10#issuecomment-947501228