jingyaogong / minimind

【大模型】3小时完全从0训练一个仅有26M的小参数GPT,最低仅需2G显卡即可推理训练!
https://jingyaogong.github.io/minimind
Apache License 2.0
2.01k stars 240 forks source link

多机多卡集群训练是否支持? #49

Open jerry1993-tech opened 2 hours ago

jerry1993-tech commented 2 hours ago

我们这边打算用64张卡基于咱 minimind 在qwen2.5-14B上进行大规模预训练,请问咱这个项目是否支持多机多卡集群训练?后期是否打算支持?谢谢!

jingyaogong commented 2 hours ago

多机多卡训练目前只有DDP的方式

# 机器1
CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py 

# 机器2
CUDA_VISIBLE_DEVICES=1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=1 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py 
jerry1993-tech commented 2 hours ago

多机多卡训练目前只有DDP的方式

# 机器1
CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py 

# 机器2
CUDA_VISIBLE_DEVICES=1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=1 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py 

感谢您快速而耐心的回复,我这边会进行尝试。请问是否有集成第三方训练框架,如deepspeed、megtron等进行多机多卡训练?比较期待😊🤝(很好的开源项目👍!!!)