yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
2.81k stars 351 forks source link

关于流水线并行的一个问题 #173

Open Cheung-Z opened 3 months ago

Cheung-Z commented 3 months ago

作者您好, 最近在跑流水线并行的代码,并尝试在qwen上复现,但发现一个问题,pipemodel是基于basemodel来加载的,以7B模型为例,相当于内存中最多的时候需要加载2 14g,是这样吗?(虽然后续使用了del model可以释放出内存 感觉想在8 32G v100上跑qwen 32B的希望破灭了....