Tarea 4 Actividad 2.1: update_policy

IIC2613-Inteligencia-Artificial-2023-1 / Syllabus

Repositorio base del curso, donde se publicarán enunciados, ayudantías y se resolverán dudas.

39 stars 1 forks source link

Tarea 4 Actividad 2.1: update_policy #88

Open vicentethomas opened 1 year ago

vicentethomas commented 1 year ago

Hola! Tengo un par de dudas con esta parte de la actividad.

En primer lugar, no me queda muy claro por qué está esta línea al principio, no me hace mucho sentido que se "borre" el valor antiguo, ya que es necesario este valor para el calculo del nuevo Q-Value. Se puede modificar esa línea?

En segundo lugar, buscando en ayudantía y en clases aparece varias veces el learning rate y discount rate que son necesarios para calcular Q-Value. Cómo obtengo estos parámetros para la parte de ReinforcedAgent? Noté que aparecen estos parametros pero para Cat y Mouse por separado, entonces no me queda claro si se pueden usar en esta parte o estoy haciendo algo mal.

De antemano muchas gracias!

benitopalaciosm commented 1 year ago

Tengo la misma duda. Debemos crear parámetros tipo LR o DISCOUNT_RATE que nos sirvan para la función update_policy? Porque entiendo que ya están creados los hiperparámetros individuales para el gato y el ratón. Pero faltan para la clase padre.

mati-gonz commented 1 year ago

Hola, tengo la misma duda y me encuentro estancado! 😓

ignaciovilla commented 1 year ago

Hola! Deben usar el respectivo a cada uno. Pueden modificar la función para que reciba este parámetro o modificar la clase padre. Avísenme si les resuelve la duda.

dfloreaa commented 1 year ago

Hola, se debe reemplazar la línea en que se hace cero por la verdadera fórmula de reemplazo. Esa línea fue dejada como placeholder.

dfloreaa commented 1 year ago

Respecto a los parámetros, estos son especificados como variables globales al comienzo del archivo en las líneas

# Hiperparámetros de entrenamiento (jugar con ellos, estudiar que ocurre al cambiarlos)
CAT_MAX_EXPLORATION_RATE = 1
CAT_MIN_EXPLORATION_RATE = 0.0001
CAT_EXPLORATION_DECAY_RATE = 0.0001
CAT_LR = 0.3
CAT_DISCOUNT_RATE = 0.9

MOUSE_MAX_EXPLORATION_RATE = 1
MOUSE_MIN_EXPLORATION_RATE = 0.0001
MOUSE_EXPLORATION_DECAY_RATE = 0.0001
MOUSE_LR = 0.3
MOUSE_DISCOUNT_RATE = 0.9

Úsenlos directamente en sus funciones