Closed boyeon-kim closed 9 months ago
질문이 있습니다!
질문이 있습니다!
- DQN이 초기 Initial을 Random으로 설정한다 = Q network의 weight와 bias를 random으로 설정한다가 맞나요? -->이렇게 생각한 이유가, Reward를 scaling해도 Q value값인 Q_expected가 변화하지 않아서 이렇게 생각했습니다!
- 1번의 이유로 우리가 Reward를 scaling한다면 Q_expected, Q_target 모두 같이 Scaling을 하는게 맞는 방향인지 여쭙니다!
다 맞는 말입니다
Non scaling
Scaling