Open Dagoli opened 1 year ago
请问下预训练70b的,你用多少张卡能跑?我用8张80g的a100会卡在loading checkpoint shards
可以联系一下嘛~
@wyx22210720244 70B的我没跑过诶
@wyx22210720244 70B的我没跑过诶
我看你上面的训练参数是70B?
我这个是llama2 -7B,问了下别人,4*8卡机器 32G的GPU跑不起来好像
@wyx22210720244
我这个是llama2 -7B,问了下别人,4*8卡机器 32G的GPU跑不起来好像
7b的finetune的我跑过,单机8卡和多机的都没有问题,预训练这就卡住了,有进度了再更新~
@Dagoli 请问是streaming=True模式下么?我在该模式下遇到同样问题,并且在训练条卡住期间监控内存,持续升高,最后OOM了
请问解决了吗?我也遇到这个问题