模型并行时加载checkpoint导致word embedding size不匹配

作者你好，

我在尝试使用change_mp.py将checkpoint拆分之后使用模型并行，但是在加载模型时提示word embedding大小不匹配。读过代码之后发现代码会在加载模型时将词表大小pad到某个数的整数倍（以提高计算效率），这个数是args.make_vocab_size_divisible_by * mpu.get_model_parallel_world_size()，因此MP改变时词表大小也会改变，导致无法正常加载模型参数。