Open bjuergens opened 3 years ago
alternative: optimizer von BackToBasic verwenden
alternative: salimans17
Bevor ein neuer optimizer eingebaut wird, sollten die alten optimizer refactort werden.
Frage: Die Checkpoint Dicts unterscheiden sich bei Mu+Lambda und CMA-ES, z.B. wird bei Mu+Lambda strategy=None und bei CMA-ES strategy=toolbox.strategy gesetzt, ist das gewollt? Wenn ja, warum?
Bei CMA-ES wird der aktuelle state des optimizers (z.B. die covarianzmatrix) in toolbox.strategy gespeichert, Bei Mu+Lambda wird die aktuelle strategie durch die aktuelle parent-population gespeichert. iirc, dann wird bei CMA ES die population aus dem checkpoint eigentlich gar nicht verwendet.
Also eigentlich könnte man den key population
aus dem checkpoint entfernen und bei mulambdaES die population als strategie abspeichern.
This issue is not a specific todo. It's a place to gather idea for optimizers to implement next
https://github.com/ShawK91/Evolutionary-Reinforcement-Learning
ERL sieht sehr relevant aus. Wir sollten es zumindestens zum Laufen bringen und in Zukunft als Referenz benutzen.
Außerdem sollten wir schauen, ob wir einige der dort verwendeten Techniken auch bei uns einbauen können. Im Idealfall könnten wir vielleicht sogar ERL als Optimizer bei uns einbauen.