Implementation of ChatGPT RLHF (Reinforcement Learning with Human Feedback) on any generation model in huggingface's transformer (blommz-176B/bloom/gpt/bart/T5/MetaICL)
in _compute_explained_variance return float(1 - np.var(t - y) / vart)
ValueError: operands could not be broadcast together with shapes (2,3) (2,)
请问这该怎么处理呢。
因为我需要多个compare_sample来更好地估计当前的状态,所以想将这个值修改更大,同时我也很想知道update_interval, minibatch_size这两个参数的作用。
非常感谢
非常感谢您提供的代码,不过当我修改compare_sample=3时,会报错
in _compute_explained_variance return float(1 - np.var(t - y) / vart)
ValueError: operands could not be broadcast together with shapes (2,3) (2,) 请问这该怎么处理呢。 因为我需要多个compare_sample来更好地估计当前的状态,所以想将这个值修改更大,同时我也很想知道update_interval, minibatch_size这两个参数的作用。 非常感谢