Closed tszslovewanpu closed 1 month ago
Please provide a clear and concise description of what the question is.
**--bf16 \** --block_size 4096 \ --output_dir /data \ --overwrite_output_dir \ --ddp_timeout 30000 \ --logging_first_step True \ --target_modules all \ --lora_rank 8 \ --lora_alpha 16 \ --lora_dropout 0.05 \ **--torch_dtype bfloat16 \** --device_map auto \ 1、是不是这个加粗的地方要对应起来 2、顺便问一下,我把blocksize设置成4096是不是就是一个batch里单个数据的长度可以到4096,而不会被切割(假如训练集里一行有3000个tokens) 3、关于单机多卡,我想问一下,CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 pretraining.py \使用这个命令时,一张卡里除了加载模型的参数,还加载什么? 我之前运行,每张卡里都只用了30%,没有都塞满吗。所以在这个指令下(不使用deepspeed)单张卡里会加载什么东西?我如何让显卡得到充分利用? 希望能得到回复!谢谢~
感谢!
Describe the Question
Please provide a clear and concise description of what the question is.