IIC2613-Inteligencia-Artificial-2024-2 / Syllabus

Syllabus oficial del curso para su rendición 2024-2.
44 stars 0 forks source link

Tarea 5 parte 5.2 #95

Open gaspar-mr05 opened 1 week ago

gaspar-mr05 commented 1 week ago

Hola! No entiendo muy bien que hay hacer en la parte 5.2 de la tarea. No entiendo si es que hay que entrenar primero con un epsilon distinto a 0, por ejemplo 100 episodios, y luego entrenar con epsilon = 0 los 10 episodios siguientes y asi todo el tiempo? De tal forma que en el gráfico se vea la recompensa promedio para las primeras 100 iteraciones sin politica greedy y las siguientes 10 con política greedy. Es esto lo que se pide?

ignaciovilla commented 1 week ago

Hola! Lo que queremos hacer es evaluar el rendimiento real de la política mientras se entrena, por lo que lo que debes hacer es que cada N episodios pauses el entrenamiento y evalúes la política hasta ese minuto. Pausar el entrenamiento significa no actualizar la tabla. Por otro lado, para evaluar la política, hacemos K ejecuciones con el entrenamiento pausado. Avísame si con eso se entiende mejor. Saludos

gaspar-mr05 commented 1 week ago

perfecto. Entonces pausar sería no ejecutar la linea learn dentro del while verdad? y supongo que el objetivo de esto es ver el gráfico recompensa promedio vs iteración, con el entrenamiento y sin el entrenamiento por intervalos y luego hacer análisis.

ignaciovilla commented 1 week ago

Eso puntual no te lo puedo responder ya que es parte de la pregunta, pero lo importante es que durante estas K iteraciones, el agente utilice la política aprendida hasta el momento, sin actualizarla. Saludos