IIC2613 / Syllabus

Repositorio oficial Inteligencia Artificial 2020-2
7 stars 1 forks source link

T4 - Grafico 6.2.2 #124

Open mpbascunan opened 3 years ago

mpbascunan commented 3 years ago

No me queda claro cómo debo hacer el gráfico en la parte de aprendizaje reforzado. Dice que se debe graficar la recompensa en el tiempo, pero esto significa que en el eje x deberían ir los episodios, y en el eje y la recompensa de cada episodio? u otra configuración que tenga que ver con el tiempo?

IngElecPuc commented 3 years ago

Hola Es algo parecido a lo que dices. En el eje x deben ir las épocas, y en el y tu gráfico de recompensas por episodios. Considera que no tiene mucho sentido graficar por paso, pues siempre que tu sistema no te arroje un valor verdadero para done va a estar recibiendo un 1.0 por cada paso. Cómo vas a graficar esa recompensa depende un poco de tí, pero puedes, o bien graficar directamente la recompensa recibida en cada episodio o, al final de un episodio, utilizar la función average_episodic_return. Esto último es más lento, pero puede ser más clarificador de cómo va la política en ese punto. Te lo dejo a ti. Saludos Felipe R.