Open muxixixixi opened 4 years ago
在算优势函数R(s)-V(s)的时候两者维度不匹配,算V之前是加了一维最终是两维,R是一维,后面用这个advantage去乘policy也就有问题了
在算优势函数R(s)-V(s)的时候两者维度不匹配,算V之前是加了一维最终是两维,R是一维,后面用这个advantage去乘policy也就有问题了