T4 parte 2 train - Githubissues

IIC2613-Inteligencia-Artificial-2022-2 / Syllabus

Repositorio base del curso, donde se publicarán enunciados, ayudantías y se resolverán dudas.

26 stars 2 forks source link

Hola lamento por la respuesta anterior, se trataba de un error, Como se estudió en clases y como debería haber sido comentado en la cápsula, utilizamos el estado siguiente para estimar recompensas futuras por la acción que cometimos. Esto se lleva a cabo cuando actualizamos nuestra Q-Table siguiendo la fórmula que estudiaron anteriormente (y que se encuentra incompleta en la cápsula de RL):

$new \ qvalue = (1-\alpha) \cdot argmax \ Q[xi] + \alpha \cdot (reward + \gamma \cdot argmax \ Q[x{i+1}])$

Con $\alpha$ el learning rate (LR) y $\gamma$ la tasa de descuento (DISCOUNT_RATE)

IIC2613-Inteligencia-Artificial-2022-2 / Syllabus

T4 parte 2 train #92