Closed fguinez closed 2 years ago
Efectivamente, es más un tema de nomenclatura utilizada en la literatura, pero para propósitos de su implementación debería ser max en vez de argmax dado que este último indica la acción a realizar y no su calidad asociada
Tengo una duda sobre cómo calcular el
new_q_value
. En las diapos de la cápsula sale una fórmula que utilizaargmax Q[x_i]
yargmax Q[x_{i+1}]
, ¿no deberían sermax Q[x_i]
ymax Q[x_j]
?Dado que, según entiendo, lo que nos interesa para calcular el nuevo
q_value
es elq_value
anterior, no la acción correspondiente a eseq_value
. En este caso,argmax
nos indica la acción ymax
nos indica el valor de esa acción.Adjunto la diapositiva correspondiente: