Closed nicolaszanni closed 2 years ago
Hola @nicolaszanni tienes toda la razón, para esta implementación en particular no es necesario conocer el estado nuevo del sistema inmediatamente después de ejecutar la acción. Digo que para esta implementación porque algo que no comenté en la cápsula es el hecho de que uno también puede considerar estados futuros a la hora de actualizar la tabla (recuerda cuando aprendieron sobre tasa de descuento).
En resumen, no, no es necesario extraer el estado siguiente tras ejecutar la acción para la forma en que nosotros esperamos que entrenen a su agente, aunque te recomiendo hacerlo de todos modos entendiendo que en otro contexto si lo usarías.
Un saludo, espero que te ayude mi respuesta
@nicolaszanni asumo mi error a la hora de comentarte lo anterior. Resulta que si debes obtener el estado siguiente para estimar recompensas futuras, para ver como incluirlo en la fórmula te recomiendo ver el ppt de la cápsula. No debería ser tan complicado si tomas en cuenta lo que ya implementaste hasta ahora.
Un saludo, perdona la inconveniencia
Hola, tenemos que dentro del algoritmo de Q learning, específicamente dentro del while, obtenemos un estado y luego generamos una acción. Luego de esto, se nos pide obtener el nuevo estado y actualizar la q table.
Mi duda es que en la cápsula, se dijo que la casilla que se actualizará es la misma de la cual se extrajo la acción del primer estado, pero el último estado puede ser distinto al anterior. ¿Esto es correcto?
Si es que se ocupa el estado inicial, no me queda muy claro para qué sirve calcular el estado nuevo al final del loop(que no se va a ocupar), si este se calculará si o si al entrar de nuevo en el while.