Closed lulia0228 closed 2 years ago
还未深入看rl梯度策略,想请教下作者我的rlloss是否正常
RL loss是正常的,正负分别代表相对于baseline更好和更差的采样结果。
感谢您的回复!
还未深入看rl梯度策略,想请教下作者我的rlloss是否正常