Closed boyeon-kim closed 9 months ago
인구 1000만 S0=9999990 I0=10 time = 300 beta = 0.00000007 gamma = 1/10
reward = - I
reward = -I - action * S/1e6
Learning rate와의 상관관계 Normalize (reward scaling?) 의 상관관계
인구 1000만 S0=9999990 I0=10 time = 300 beta = 0.00000007 gamma = 1/10