why sample from multinomial distribution during evaluation in Atari?

kzl / decision-transformer

Official codebase for Decision Transformer: Reinforcement Learning via Sequence Modeling.

MIT License

2.33k stars 440 forks source link

why sample from multinomial distribution during evaluation in Atari? #61

Open sallyqiansun opened 1 year ago

sallyqiansun commented 1 year ago

Hi, I'm curious why you implemented a sampling procedure (line 30 of decision-transformer-master/atari/mingpt/utils.py) instead of directly taking the argmax of the predicted probabilities? If I'm understanding it correctly, in the continuous case in gym, the predicted value is directly used during evaluation without sampling, is that correct?

Looking forward to your reply! Thank you!