Open jerry1993-tech opened 2 hours ago
多机多卡训练目前只有DDP的方式
# 机器1
CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py
# 机器2
CUDA_VISIBLE_DEVICES=1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=1 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py
多机多卡训练目前只有DDP的方式
# 机器1 CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=0 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py # 机器2 CUDA_VISIBLE_DEVICES=1 torchrun --nproc_per_node=1 --nnodes=2 --node_rank=1 --master_addr="202.195.167.206" --master_port=8877 1-pretrain.py
感谢您快速而耐心的回复,我这边会进行尝试。请问是否有集成第三方训练框架,如deepspeed、megtron等进行多机多卡训练?比较期待😊🤝(很好的开源项目👍!!!)
我们这边打算用64张卡基于咱 minimind 在qwen2.5-14B上进行大规模预训练,请问咱这个项目是否支持多机多卡集群训练?后期是否打算支持?谢谢!