UC-IIC2613 / Syllabus

27 stars 10 forks source link

[Tarea 4] [P6] Recompensa o castigo #228

Open jorge-ovalle opened 3 years ago

jorge-ovalle commented 3 years ago

La idea en esta tarea es minimizar o maximizar Q(s, a) ? Digo porque en la ayudantía extra se dijo que era un typo que dijera minimizar envés de maximizar. Lo otro. Es necesario hacer una exploración de hiperparámetros para la segunda parte? Onda probar con gamma, alpha y epsilon

IngElecPuc commented 3 years ago

Hola El objetivo es maximizar Q(s, a). Eso significa que el typo está en que la elección de la acción se toma sobre aquella que maximiza Q en el estado correspondiente. La exploración de hiperparámetros es algo que siempre vas a tener que realizar en estos problemas. El enunciado no te pide ninguna, por lo tanto no nos debes reportar qué sucede mientras ibas realizando dicha exploración. Solamente debes tratar de hacer que el agente se vuelva adecuado para controlar el péndulo, y tal vez te tome unos cuantos intentos. Al final, solo queremos ver al agente cumpliendo su misión. Ahora, conviene mucho que en tu desarrollo nos relates cómo fue tu exploración, con un poco de texto, tratando de mostrar lo que sabes. De la misma manera queremos ver comentarios en el código. Saludos