Open gaspar-mr05 opened 1 week ago
Hola! Lo que queremos hacer es evaluar el rendimiento real de la política mientras se entrena, por lo que lo que debes hacer es que cada N episodios pauses el entrenamiento y evalúes la política hasta ese minuto. Pausar el entrenamiento significa no actualizar la tabla. Por otro lado, para evaluar la política, hacemos K ejecuciones con el entrenamiento pausado. Avísame si con eso se entiende mejor. Saludos
perfecto. Entonces pausar sería no ejecutar la linea learn dentro del while verdad? y supongo que el objetivo de esto es ver el gráfico recompensa promedio vs iteración, con el entrenamiento y sin el entrenamiento por intervalos y luego hacer análisis.
Eso puntual no te lo puedo responder ya que es parte de la pregunta, pero lo importante es que durante estas K iteraciones, el agente utilice la política aprendida hasta el momento, sin actualizarla. Saludos
Hola! No entiendo muy bien que hay hacer en la parte 5.2 de la tarea. No entiendo si es que hay que entrenar primero con un epsilon distinto a 0, por ejemplo 100 episodios, y luego entrenar con epsilon = 0 los 10 episodios siguientes y asi todo el tiempo? De tal forma que en el gráfico se vea la recompensa promedio para las primeras 100 iteraciones sin politica greedy y las siguientes 10 con política greedy. Es esto lo que se pide?