alibaba / Pai-Megatron-Patch

The official repo of Pai-Megatron-Patch for LLM & VLM large scale training developed by Alibaba Cloud.
Apache License 2.0
577 stars 79 forks source link

关于二阶段训练的问题 #247

Open jianhai0527 opened 1 month ago

jianhai0527 commented 1 month ago
  1. 使用qwen1.5 moe模型
  2. 第一阶段训练完后,保存的checkpoint,不能作为第二阶段的pretrain checkpoint使用,仅load weight
  3. 有两个问题,一个是缺失必要的配置文件,二是补充配置文件后报以下错误 py", line 757, in get_parameter_state_dp_zero state_dict = optimizer.get_parameter_state_dp_zero() File "/nas-wulanchabu/tanfan.zjh/Pai-Megatron-Patch/Megatron-LM-240405/megatron/core/optimizer/distrib_optimizer.py", line 757, in get_parameter_state_dp_zero tensors[key].detach().cpu() tensors[key].detach().cpu() KeyError: 'exp_avg' KeyError: 'exp_avg'tensors[key].detach().cpu() tensors[key].detach().cpu()

tensors[key].detach().cpu()

tensors[key].detach().cpu() KeyErrorKeyErrorKeyErrorKeyError: : : : tensors[key].detach().cpu()'exp_avg' 'exp_avg''exp_avg''exp_avg'tensors[key].detach().cpu()

jerryli1981 commented 1 month ago

您好,这个问题我遇到过,貌似就是第二阶段加载的时候不加载优化器参数就可以了

jianhai0527 commented 1 month ago

您好,这个问题我遇到过,貌似就是第二阶段加载的时候不加载优化器参数就可以了

多谢~~我已经加了no-load-optim参数,不起作用。。应该咋操作呢