Open ElTioAndresCabezas opened 1 year ago
Hola, se espera que ustedes desarrollen su propia política de comportamiento a aprender por cada uno de sus agentes. Si bien esta puede estar basada en la respuesta enemiga, no puede utilizar el comportamiento base que les entregamos para el agente.
Es parte de los objetivos de la tarea que intenten programar el problema "a mano"
Hola!
En la actividad 1.1 de la tarea 4, se entrega el siguiente codigo base para generar el set de datos de entrenamiento para cada uno de los agentes (este ejemplo es para entrenar al Gato)
Se entrega una instancia del enemigo para entrenar, pero no una del agente en si (en este caso, una instancia de
BaseCat
). TantoBaseCat
comoBaseMouse
incluyen el metodoget_action()
, el cual, dado un mapa y posiciones de ambos agentes, toma la decisión que se considera más correcta.¿Nosotros tenemos permitido usar ese método para obtener la respuesta de movimiento del agente para armar el set de datos? ¿O se espera que nosotros reimplementemos desde 0 eso (considerando que las decisiones del movimiento quedan a nuestro criterio)?
De antemano, muchas gracias :)