OpenLLMAI / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & Mixtral)
https://openrlhf.readthedocs.io/
Apache License 2.0
1.73k stars 164 forks source link

reward数据准备的一个细节问题 #194

Closed tonylin52 closed 5 months ago

tonylin52 commented 5 months ago

这个工程很棒!

有个问题是在准备rm模型训练数据时,prompt + chosen后面会加一个空格然后再加上<eos>chosen = prompt + chosen + " " + self.tokenizer.eos_token

请问这个空格是有什么考究吗?因为deepspeedchat里面没有加。

hijkzzz commented 5 months ago

早期 llama 的 tokenizer 有bug 导致不加空格识别不了 </s> 这些prompt格式可以自己改的 影响不大

tonylin52 commented 5 months ago

早期 llama 的 tokenizer 有bug 导致不加空格识别不了 </s> 这些prompt格式可以自己改的 影响不大

收到 感谢