Hola! En la parte 2 de la T4 se pregunta qué tasa de descuento dio mejor resultados, sin embargo, en las fórmulas de la cápsula de Q-Learning no se utiliza la tasa de descuento explícitamente. Además, entendí que la fórmula para obtener el new_q_value es una versión simplificada donde no se consideran recompensas futuras. ¿Estoy entendiendo algo mal y sí hay que usar la tasa de descuento? ¿o no se utiliza?
¡Hola!
Gracias por la aclaración, acabo de hacer una aclaración al respecto en un anuncio en Canvas. Sí deben considerarlo, aunque no debería cambiar mucho dado el código base (es una línea).
Hola! En la parte 2 de la T4 se pregunta qué tasa de descuento dio mejor resultados, sin embargo, en las fórmulas de la cápsula de Q-Learning no se utiliza la tasa de descuento explícitamente. Además, entendí que la fórmula para obtener el new_q_value es una versión simplificada donde no se consideran recompensas futuras. ¿Estoy entendiendo algo mal y sí hay que usar la tasa de descuento? ¿o no se utiliza?
Muchas gracias de antemano.