Open nicolaszanni opened 1 month ago
¡Hola!
No sé si entendí del todo la pregunta. Pero los estados del cliff en verdad no existen. Es imposible para el agente llegar a ellos (porque caer al cliff significa -100 y teletransportarse al estado inicial, todo al mismo tiempo). Entonces no hay motivos para asignarles un Q-value :)
¿Esto responde tu pregunta?
Sí, que no existan responde la pregunta. Gracias
Hola, al estar programando Sarsa en CliffEnv me di cuenta que en el método step al caer en el Cliff, se asigna el estado incial a s' La duda que tengo, es que como el state que está adentro del cliff nunca toma el valor de s, entonces implica que su función estado valor nunca varía, ya que no se ''llega y actualiza" ese estado.
Específicamente, como s <- s' y s' nunca es un estado del cliff, entonces no varía Q(s, a) para esos estados.
Entonces cada vez que llego a ese estado intermedio, recibo -100, pero el Q(s, a) se queda igual que la incialización aleatoria y por ende también su V(s). Creo que estos valores deberían ser un poco mayores que -100 o no?
Adjunto una foto de los V(s) luego de 500 episodios.