多机多卡集群训练是否支持？

jerry1993-tech commented 2 hours ago

我们这边打算用64张卡基于咱 minimind 在qwen2.5-14B上进行大规模预训练，请问咱这个项目是否支持多机多卡集群训练？后期是否打算支持？谢谢！

jingyaogong commented 2 hours ago

多机多卡训练目前只有DDP的方式

# 机器1
CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py 

# 机器2
CUDA_VISIBLE_DEVICES=1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=1 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py

jerry1993-tech commented 2 hours ago

多机多卡训练目前只有DDP的方式

# 机器1
CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py 

# 机器2
CUDA_VISIBLE_DEVICES=1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=1 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py

感谢您快速而耐心的回复，我这边会进行尝试。请问是否有集成第三方训练框架，如deepspeed、megtron等进行多机多卡训练？比较期待😊🤝（很好的开源项目👍！！！）

jingyaogong / minimind

多机多卡集群训练是否支持？ #49