[Tarea 4] [P6] Recompensa o castigo

Hola El objetivo es maximizar Q(s, a). Eso significa que el typo está en que la elección de la acción se toma sobre aquella que maximiza Q en el estado correspondiente. La exploración de hiperparámetros es algo que siempre vas a tener que realizar en estos problemas. El enunciado no te pide ninguna, por lo tanto no nos debes reportar qué sucede mientras ibas realizando dicha exploración. Solamente debes tratar de hacer que el agente se vuelva adecuado para controlar el péndulo, y tal vez te tome unos cuantos intentos. Al final, solo queremos ver al agente cumpliendo su misión. Ahora, conviene mucho que en tu desarrollo nos relates cómo fue tu exploración, con un poco de texto, tratando de mostrar lo que sabes. De la misma manera queremos ver comentarios en el código. Saludos

UC-IIC2613 / Syllabus

[Tarea 4] [P6] Recompensa o castigo #228