Open matiasmsm opened 3 years ago
Hola No, no está bien. Si haces eso lo único que vas a estar midiendo es el histograma de la distribución del estado inicial. Lo que necesitas es una exploración preliminar más exhaustiva de tu espacio de estados, lo que implica darle acciones a algún agente para que interactúe con el ambiente. No importa si esas acciones son de una política inicial simple, siempre y cuando se recupere una cantidad decente de información. Por ejemplo si solo aplicas un torque constante tampoco tendrías algo muy informativo. Esto lo solucionas con una política simple, pero lo suficientemente útil como para que obtengas alguna información variada y rica del agente interactuando con el ambiente. Saludos
Gracias!
Hola, en esta parte me queda duda respecto a que se refieren con que los episodios sean independientes. Se refieren a que se haga reset siempre antes de aplicar la acción? o a otra cosa?
@antoniaalcayaga Sí, en la práctica es lo que tú dices.
Hola.
¿Está bien si construyo los histogramas con las observaciones obtenidas solo de env.reset() o debo tomar steps con acciones?
También no entiendo muy bien por qué el env retorna una observación de la velocidad angular entre los rangos (-1,1). ¿Debo multiplicar esta observación por 8 para mostrarlo en el histograma?
Saludos!