AlibabaResearch / DAMO-ConvAI

DAMO-ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI.
MIT License
1.1k stars 178 forks source link

pro #69

Open liumingzhu6060 opened 11 months ago

liumingzhu6060 commented 11 months ago

为什么训练pro的时候使用8卡,经常最后一张卡oom。

F2-Song commented 4 months ago

hi~推测是设置了第8张卡也放了LLM?默认设置是前7张卡放LLM,第8张卡只放奖励模型用于训练中的validation。

Zheng-Jay commented 4 months ago

hi~推测是设置了第8张卡也放了LLM?默认设置是前7张卡放LLM,第8张卡只放奖励模型用于训练中的validation。

你好我跑训练代码会报OOM,我是80G的A800,训练13B的模型,按道理应该不会爆啊 我把batch size设为1,block_size设为100,还是爆了,不知道问题出在哪?

F2-Song commented 4 months ago

hi~推测是设置了第8张卡也放了LLM?默认设置是前7张卡放LLM,第8张卡只放奖励模型用于训练中的validation。

你好我跑训练代码会报OOM,我是80G的A800,训练13B的模型,按道理应该不会爆啊 我把batch size设为1,block_size设为100,还是爆了,不知道问题出在哪?

或许可以考虑关闭do_validation并使用bf16和zero-3。需注意直接使用zero-3可能出现checkpoint只保存一部分的现象,见 #66 所述。 此外,data_manager.py中多处设置了self.max_length - 128,来规定prompt本身的长度(因为128是默认的response长度,我们没有将之设置在args里),如block_size修改为100,此处的128应该也需调整一下。