LlamaFamily / Llama-Chinese

Llama中文社区,Llama3在线体验和微调模型已开放,实时汇总最新Llama3学习资料,已将所有代码更新适配Llama3,构建最好的中文Llama大模型,完全开源可商用
https://llama.family
14.01k stars 1.26k forks source link

pretrain脚本运行时,卡在训练读条 #249

Open Dagoli opened 1 year ago

Dagoli commented 1 year ago

image

wyx22210720244 commented 1 year ago

请问下预训练70b的,你用多少张卡能跑?我用8张80g的a100会卡在loading checkpoint shards

wyx22210720244 commented 1 year ago

image

可以联系一下嘛~

Dagoli commented 1 year ago

@wyx22210720244 70B的我没跑过诶

wyx22210720244 commented 1 year ago

@wyx22210720244 70B的我没跑过诶

我看你上面的训练参数是70B?

Dagoli commented 1 year ago

我这个是llama2 -7B,问了下别人,4*8卡机器 32G的GPU跑不起来好像

Dagoli commented 1 year ago

@wyx22210720244

wyx22210720244 commented 1 year ago

我这个是llama2 -7B,问了下别人,4*8卡机器 32G的GPU跑不起来好像

7b的finetune的我跑过,单机8卡和多机的都没有问题,预训练这就卡住了,有进度了再更新~

ZhouqyCH commented 1 year ago

@Dagoli 请问是streaming=True模式下么?我在该模式下遇到同样问题,并且在训练条卡住期间监控内存,持续升高,最后OOM了

BossShi commented 4 months ago

请问解决了吗?我也遇到这个问题