Open antoniaalcayaga opened 3 years ago
Hola, la defines tú. Esta matriz representa el valor de ejecutar una acción en un determinado estado, por lo que al principio no sabrías con qué valores llenarla. Así, se inicializa con valores random (o ceros, si tú quieres), y se van actualizando sus valores a medida que el agente interactúa con el ambiente.
yaa perfecto! muchas gracias
Hola!
Tengo la duda del cual debería ser la matriz Q inicial. ¿Podría yo definirla como una matriz con puros ceros o la idea es que ocupe el agente que ejecuta acciones aleatorias para crearla?
De antemano mucha graciaas :)