IIC2613-Inteligencia-Artificial-2022-1 / Syllabus

Repositorio base del curso, donde se publicarán enunciados, ayudantías y se resolverán dudas.
24 stars 7 forks source link

[T4 P2] Cálculo new_q_value #128

Closed fguinez closed 2 years ago

fguinez commented 2 years ago

Tengo una duda sobre cómo calcular el new_q_value. En las diapos de la cápsula sale una fórmula que utiliza argmax Q[x_i] y argmax Q[x_{i+1}], ¿no deberían ser max Q[x_i] y max Q[x_j]?

Dado que, según entiendo, lo que nos interesa para calcular el nuevo q_value es el q_value anterior, no la acción correspondiente a ese q_value. En este caso, argmax nos indica la acción y max nos indica el valor de esa acción.

Adjunto la diapositiva correspondiente:

Screen Shot 2022-07-02 at 17 53 57

dfloreaa commented 2 years ago

Efectivamente, es más un tema de nomenclatura utilizada en la literatura, pero para propósitos de su implementación debería ser max en vez de argmax dado que este último indica la acción a realizar y no su calidad asociada