Artigos sobre RL e Mario Kart

Primeiro vou falando para a gente testar DQN, Double DQN e o uso de um Experience Replay (buffer) e talvez os algoritimos usados em sala, se der tempo. Não tem muitos avanços novos na area faz um bom tempo, mas tentei achar só coisas mais recentes.

NeuralKart: A Real-Time Mario Kart 64 AI

https://cs231n.stanford.edu/reports/2017/pdfs/624.pdf

Usa CNN para fazer o modelo. eu trouxe ele porque ele basicamente fala que DQN é um baseline, onde se algo for pior que a DQN o modelo não é muito válido. Isso é preocupante para nós porque o pessoal fala que o DQN é meio que a média aí para performance, mas DQN é um dos melhores algoritimos de RL.

Deep imitation reinforcement learning with expert demonstration data

https://ietresearch.onlinelibrary.wiley.com/doi/full/10.1049/joe.2018.8314

Esse paper é promissor porque ele reduz nosso tempo explorando o ambiente drasticmanete, porém é uma mistura de aprendizado supervisionado e RL. Essa é a pipeline:

Coleta de Dados: Registre ações de um especialista em um ambiente (por exemplo, um jogo).
Treinamento da Rede de Especialista: Treine uma rede neural para prever ações com base nos dados coletados.
Imitação de Ações: O agente imita ações do especialista com base na probabilidade fornecida pela rede de especialista.
Exploração e Amostragem: O agente coleta amostras de treinamento, priorizando estados semelhantes aos do especialista.
Treinamento do DQN: Use as amostras coletadas para treinar a rede Q, ajustando a função de recompensa.
Transição para Aprendizado por Reforço: Gradualmente diminua a influência dos dados do especialista, permitindo que o agente aprenda autonomamente.

LisandraMoura / Mario-kart-RL

Artigos sobre RL e Mario Kart #1

NeuralKart: A Real-Time Mario Kart 64 AI

Deep imitation reinforcement learning with expert demonstration data