Open mpbascunan opened 3 years ago
Hola Es algo parecido a lo que dices. En el eje x deben ir las épocas, y en el y tu gráfico de recompensas por episodios. Considera que no tiene mucho sentido graficar por paso, pues siempre que tu sistema no te arroje un valor verdadero para done va a estar recibiendo un 1.0 por cada paso. Cómo vas a graficar esa recompensa depende un poco de tí, pero puedes, o bien graficar directamente la recompensa recibida en cada episodio o, al final de un episodio, utilizar la función average_episodic_return. Esto último es más lento, pero puede ser más clarificador de cómo va la política en ese punto. Te lo dejo a ti. Saludos Felipe R.
No me queda claro cómo debo hacer el gráfico en la parte de aprendizaje reforzado. Dice que se debe graficar la recompensa en el tiempo, pero esto significa que en el eje x deberían ir los episodios, y en el eje y la recompensa de cada episodio? u otra configuración que tenga que ver con el tiempo?