Open thpun opened 3 years ago
@thpun Do you address this bug? I encounter the same error when I fine-tuning mBART with translation_from_pretrained_bart task. When I try to train a model from scratch, the FSDP is fine.
No. I just didnt use FSDP for finetuning mBART.
Oh, it's so regrettable.
🐛 Bug
Got errors when loading mBART.cc25 pretrained model for fine-tuning on
translation_multi_simple_epoch
in FSDP.To Reproduce
Steps to reproduce the behavior (always include the command you ran):
-- Process 3 terminated with the following error: Traceback (most recent call last): File "/workspace/fairseq/fairseq/trainer.py", line 453, in load_checkpoint self.model.load_state_dict( File "/workspace/fairseq/fairseq/distributed/fully_sharded_data_parallel.py", line 76, in load_state_dict return super().load_state_dict(state_dict, strict=strict) File "/workspace/fairscale/fairscale/nn/data_parallel/fully_sharded_data_parallel.py", line 604, in load_state_dict return self.module.load_state_dict(state_dict, strict) File "/workspace/fairscale/fairscale/nn/misc/flatten_params_wrapper.py", line 242, in load_state_dict return super().load_state_dict(state_dict, strict) File "/opt/conda/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1215, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for FlattenParamsWrapper: Missing key(s) in state_dict: "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.weight", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn_layer_norm.bias", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.final_layer_norm.weight", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.final_layer_norm.bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.k_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.k_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.v_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.v_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.q_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.q_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.encoder_attn.k_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.encoder_attn.v_proj.bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.encoder_attn.q_proj.bias", "_fpw_module.decoder.output_projection.weight". Unexpected key(s) in state_dict: "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.layer_norms.0.weight", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.layer_norms.0.bias", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.layer_norms.1.weight", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.layer_norms.1.bias", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.encoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.0._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.1._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.2._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.3._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.4._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.5._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.6._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.7._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.8._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.9._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.10._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.in_proj_weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.self_attn.in_proj_bias", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_weight", "_fpw_module.decoder.layers.11._fsdp_wrapped_module._fpw_module.encoder_attn.in_proj_bias". size mismatch for _fpw_module.encoder.embed_tokens.weight: copying a param with shape torch.Size([250027, 1024]) from checkpoint, the shape in current model is torch.Size([250026, 1024]). size mismatch for _fpw_module.decoder.embed_tokens.weight: copying a param with shape torch.Size([250027, 1024]) from checkpoint, the shape in current model is torch.Size([250026, 1024]).
During handling of the above exception, another exception occurred:
Traceback (most recent call last): File "/opt/conda/lib/python3.8/site-packages/torch/multiprocessing/spawn.py", line 59, in _wrap fn(i, *args) File "/workspace/fairseq/fairseq/distributed/utils.py", line 328, in distributed_main main(cfg, **kwargs) File "/workspace/fairseq/fairseq_cli/train.py", line 145, in main extra_state, epoch_itr = checkpoint_utils.load_checkpoint( File "/workspace/fairseq/fairseq/checkpoint_utils.py", line 204, in load_checkpoint extra_state = trainer.load_checkpoint( File "/workspace/fairseq/fairseq/trainer.py", line 465, in load_checkpoint raise Exception( Exception: Cannot load model parameters from checkpoint models/mbart.cc25/model.pt; please ensure that the architectures match.
conda install gcc_linux-64 gxx_linux-64 git clone https://github.com/pytorch/fairseq.git git clone https://github.com/facebookresearch/fairscale cd fairseq pip install opencc nni tensorboardX pyarrow pip install -U numpy cython apt update apt-get install -y screen llvm-9 DS_BUILD_CPU_ADAM=1 DS_BUILD_UTILS=1 pip install deepspeed --global-option="build_ext" --global-option="-j8" pip install --editable . python setup.py build_ext --inplace cd ../fairscale pip install -r requirements.txt pip install -e .