T4 - Grafico 6.2.2 - Githubissues

Hola Es algo parecido a lo que dices. En el eje x deben ir las épocas, y en el y tu gráfico de recompensas por episodios. Considera que no tiene mucho sentido graficar por paso, pues siempre que tu sistema no te arroje un valor verdadero para done va a estar recibiendo un 1.0 por cada paso. Cómo vas a graficar esa recompensa depende un poco de tí, pero puedes, o bien graficar directamente la recompensa recibida en cada episodio o, al final de un episodio, utilizar la función average_episodic_return. Esto último es más lento, pero puede ser más clarificador de cómo va la política en ese punto. Te lo dejo a ti. Saludos Felipe R.

IIC2613 / Syllabus

T4 - Grafico 6.2.2 #124