Open LisandraMoura opened 3 weeks ago
Primeiro vou falando para a gente testar DQN, Double DQN e o uso de um Experience Replay (buffer) e talvez os algoritimos usados em sala, se der tempo. Não tem muitos avanços novos na area faz um bom tempo, mas tentei achar só coisas mais recentes.
https://cs231n.stanford.edu/reports/2017/pdfs/624.pdf
Usa CNN para fazer o modelo. eu trouxe ele porque ele basicamente fala que DQN é um baseline, onde se algo for pior que a DQN o modelo não é muito válido. Isso é preocupante para nós porque o pessoal fala que o DQN é meio que a média aí para performance, mas DQN é um dos melhores algoritimos de RL.
https://ietresearch.onlinelibrary.wiley.com/doi/full/10.1049/joe.2018.8314
Esse paper é promissor porque ele reduz nosso tempo explorando o ambiente drasticmanete, porém é uma mistura de aprendizado supervisionado e RL. Essa é a pipeline:
Buscar aplicações de RL no Mario Kart, com o objetivo de mapear as aplicações comuns para conseguirmos propor algoritmos inovações a partir de algoritmos recentes.
Os artigos também são importantes para utilizar os estados e ações que já foram documentadas.