UC-IIC2613 / Syllabus

27 stars 10 forks source link

[Tarea 4] Pregunta 5 #209

Open matiasmsm opened 3 years ago

matiasmsm commented 3 years ago

Hola.

¿Está bien si construyo los histogramas con las observaciones obtenidas solo de env.reset() o debo tomar steps con acciones?

También no entiendo muy bien por qué el env retorna una observación de la velocidad angular entre los rangos (-1,1). ¿Debo multiplicar esta observación por 8 para mostrarlo en el histograma?

Saludos!

IngElecPuc commented 3 years ago

Hola No, no está bien. Si haces eso lo único que vas a estar midiendo es el histograma de la distribución del estado inicial. Lo que necesitas es una exploración preliminar más exhaustiva de tu espacio de estados, lo que implica darle acciones a algún agente para que interactúe con el ambiente. No importa si esas acciones son de una política inicial simple, siempre y cuando se recupere una cantidad decente de información. Por ejemplo si solo aplicas un torque constante tampoco tendrías algo muy informativo. Esto lo solucionas con una política simple, pero lo suficientemente útil como para que obtengas alguna información variada y rica del agente interactuando con el ambiente. Saludos

matiasmsm commented 3 years ago

Gracias!

antoniaalcayaga commented 3 years ago

Hola, en esta parte me queda duda respecto a que se refieren con que los episodios sean independientes. Se refieren a que se haga reset siempre antes de aplicar la acción? o a otra cosa?

diegomendieta commented 3 years ago

@antoniaalcayaga Sí, en la práctica es lo que tú dices.