Open vicentethomas opened 1 year ago
Tengo la misma duda. Debemos crear parámetros tipo LR o DISCOUNT_RATE que nos sirvan para la función update_policy? Porque entiendo que ya están creados los hiperparámetros individuales para el gato y el ratón. Pero faltan para la clase padre.
Hola, tengo la misma duda y me encuentro estancado! 😓
Hola! Deben usar el respectivo a cada uno. Pueden modificar la función para que reciba este parámetro o modificar la clase padre. Avísenme si les resuelve la duda.
Hola, se debe reemplazar la línea en que se hace cero por la verdadera fórmula de reemplazo. Esa línea fue dejada como placeholder.
Respecto a los parámetros, estos son especificados como variables globales al comienzo del archivo en las líneas
# Hiperparámetros de entrenamiento (jugar con ellos, estudiar que ocurre al cambiarlos)
CAT_MAX_EXPLORATION_RATE = 1
CAT_MIN_EXPLORATION_RATE = 0.0001
CAT_EXPLORATION_DECAY_RATE = 0.0001
CAT_LR = 0.3
CAT_DISCOUNT_RATE = 0.9
MOUSE_MAX_EXPLORATION_RATE = 1
MOUSE_MIN_EXPLORATION_RATE = 0.0001
MOUSE_EXPLORATION_DECAY_RATE = 0.0001
MOUSE_LR = 0.3
MOUSE_DISCOUNT_RATE = 0.9
Úsenlos directamente en sus funciones
Hola! Tengo un par de dudas con esta parte de la actividad.
En primer lugar, no me queda muy claro por qué está esta línea al principio, no me hace mucho sentido que se "borre" el valor antiguo, ya que es necesario este valor para el calculo del nuevo Q-Value. Se puede modificar esa línea?
En segundo lugar, buscando en ayudantía y en clases aparece varias veces el learning rate y discount rate que son necesarios para calcular Q-Value. Cómo obtengo estos parámetros para la parte de ReinforcedAgent? Noté que aparecen estos parametros pero para Cat y Mouse por separado, entonces no me queda claro si se pueden usar en esta parte o estoy haciendo algo mal.
De antemano muchas gracias!