UC-IIC2613 / Syllabus

27 stars 10 forks source link

[Tarea 4][Pregunta 6] Entrenar Q #222

Open antoniaalcayaga opened 3 years ago

antoniaalcayaga commented 3 years ago

Hola,

Leyendo el enunciado me surgieron dos dudas respecto a esta pregunta.

La primera es que yo pensaba que lo que tenía que hacer era conseguir mi matriz Q mediante el algoritmo de Q-learning y luego pasarle esta al agente, haciendo que funcionara de una forma mas inteligente que el random. Sin embargo, del enunciado entiendo que este agente debería estar tomando decisiones a medida que mejoro mi matriz Q. Como que el aprendizaje va dentro de la función del agente. ¿Esta última interpretación es correcta o tengo que hacer lo primero que pensé?

La segunda duda es que el enunciado dice que el agente debe escoger la acción que minimiza el valor en la matriz Q del estado s (argmin(Q(s,a)), pero esta guarda la recompensa, entonces, esto no debería ser el máximo? o yo estoy entendiendo mal?

De antemano muchas gracias :)

diegomendieta commented 3 years ago

Hola,

Respecto de tu primera duda, lo que hace el algoritmo de Q-Learning es aprender los valores de la tabla Q para que en cada estado en el que se encuentre, tu agente sepa qué acción llevar a cabo. Esto normalmente se hace dejando al agente interactuar con el ambiente siguiendo una política epsilon-greedy, y actualizando los valores a medida que ejecuta acciones. Por lo tanto, sí, tienes la intuición: el agente mejora las estimaciones de los valores en la tabla Q a medida que interactúa con el ambiente, lo que significa también que la tabla "almacena" la mejor política hasta ese entonces.

Respecto de lo segundo, depende de qué significa tu función de valor. Si tiene el sentido de "castigo", entonces quieres minimizarla, mientras que si el sentido es de "utilidad", entonces quieres maximizarla.

antoniaalcayaga commented 3 years ago

Y para la tarea puedo hacerlo con la utilidad? o estoy obligada a hacerlo con castigo?