Open DePengW opened 4 months ago
你好,我在sft阶段训练llama-7b版本时候发现个问题,训练超参数保持一致(lr、step、weight_decay、warmup等)
设置1:当使用8 x a100,per_device_train_batch_size=16,gradient_accumulation_steps=2,totol_batch_size = 128 设置2:当使用2 x 8 x a100,per_device_train_batch_size=16,gradient_accumulation_steps=1,totol_batch_size = 128
设置1的各个指标都比设置2好,请问这个问题您们有关注过么?
我使用gemma-2b也会出现同样的情况,这可能是关于多机多卡和单机多卡性能的问题,您们之前有注意过么?以及有什么解决方案么
@DePengW 我跑 llava-1.5 的时候也发现了同样的问题,保持各种超参数一致,4 node 的结果不如 1 node 的。感觉自己做实验的时候保持node 数量一样就行。
你好,我在sft阶段训练llama-7b版本时候发现个问题,训练超参数保持一致(lr、step、weight_decay、warmup等)
设置1:当使用8 x a100,per_device_train_batch_size=16,gradient_accumulation_steps=2,totol_batch_size = 128 设置2:当使用2 x 8 x a100,per_device_train_batch_size=16,gradient_accumulation_steps=1,totol_batch_size = 128
设置1的各个指标都比设置2好,请问这个问题您们有关注过么?
我使用gemma-2b也会出现同样的情况,这可能是关于多机多卡和单机多卡性能的问题,您们之前有注意过么?以及有什么解决方案么