pro - Githubissues

liumingzhu6060 commented 11 months ago

为什么训练pro的时候使用8卡，经常最后一张卡oom。

F2-Song commented 4 months ago

hi~推测是设置了第8张卡也放了LLM？默认设置是前7张卡放LLM，第8张卡只放奖励模型用于训练中的validation。

Zheng-Jay commented 4 months ago

hi~推测是设置了第8张卡也放了LLM？默认设置是前7张卡放LLM，第8张卡只放奖励模型用于训练中的validation。

你好我跑训练代码会报OOM，我是80G的A800，训练13B的模型，按道理应该不会爆啊我把batch size设为1，block_size设为100，还是爆了，不知道问题出在哪？

F2-Song commented 4 months ago

hi~推测是设置了第8张卡也放了LLM？默认设置是前7张卡放LLM，第8张卡只放奖励模型用于训练中的validation。

你好我跑训练代码会报OOM，我是80G的A800，训练13B的模型，按道理应该不会爆啊我把batch size设为1，block_size设为100，还是爆了，不知道问题出在哪？

或许可以考虑关闭do_validation并使用bf16和zero-3。需注意直接使用zero-3可能出现checkpoint只保存一部分的现象，见 #66 所述。此外，data_manager.py中多处设置了self.max_length - 128，来规定prompt本身的长度（因为128是默认的response长度，我们没有将之设置在args里），如block_size修改为100，此处的128应该也需调整一下。

AlibabaResearch / DAMO-ConvAI

pro #69