IIC2613-Inteligencia-Artificial-2022-2 / Syllabus

Repositorio base del curso, donde se publicarán enunciados, ayudantías y se resolverán dudas.
26 stars 2 forks source link

T4 parte 2 train #92

Open vice-rosas99 opened 1 year ago

vice-rosas99 commented 1 year ago

tengo una duda respecto a la función train, en el código se nos dice que debemos obtener el nuevo estado una vez que se ejecuta la acción, sin embargo este nuevo estado no se usa para nada (por lo que puedo ver). Entonces pregunto para qué sirve ese nuevo estado?

dfloreaa commented 1 year ago

Hola lamento por la respuesta anterior, se trataba de un error, Como se estudió en clases y como debería haber sido comentado en la cápsula, utilizamos el estado siguiente para estimar recompensas futuras por la acción que cometimos. Esto se lleva a cabo cuando actualizamos nuestra Q-Table siguiendo la fórmula que estudiaron anteriormente (y que se encuentra incompleta en la cápsula de RL):

$new \ qvalue = (1-\alpha) \cdot argmax \ Q[xi] + \alpha \cdot (reward + \gamma \cdot argmax \ Q[x{i+1}])$

Con $\alpha$ el learning rate (LR) y $\gamma$ la tasa de descuento (DISCOUNT_RATE)