devsisters / DQN-tensorflow

Tensorflow implementation of Human-Level Control through Deep Reinforcement Learning
MIT License
2.46k stars 765 forks source link

environment.py에서 detailed mode가 목숨이 1개인 문제 #4

Closed qbx2 closed 8 years ago

qbx2 commented 8 years ago

Detailed mode의 경우 목숨이 1개 줄어들면 에피소드가 끝나도록 되어있어서 simple mode와 점수가 5배 이상 차이나게 됩니다. Detailed mode에서 목숨이 줄어든 것으로 바로 terminal=True를 주면 바로 새 랜덤 게임을 실행하게 되는 것이 문제입니다. 그래서 그래프를 보면 simple mode가 detailed mode보다 좋은 것처럼 보이지만 실은 둘을 비교해서는 안되는 조건 하에 있는 것입니다. 게다가 M2(purple)이 step=1M 쯤에서부터 안보이는군요. 그래프를 잘못해석할 여지가 있다고 봅니다.

carpedm20 commented 8 years ago

@qbx2 I agree with this issue that the graph can cause misunderstanding. We'll working on drawing new clean graphs.