Closed zhhao1 closed 1 year ago
您好,我看您在ParallelTransformerLayerPipe里增加了self.activation_checkpointing = activation_checkpointing,但是这个参数在llama模型里是没有的,加载llama的模型不会出错吗。 我看在更新的代码中,是先把hf格式转化为deepspeed的格式,然后engine.load_checkpoint(model_args.init_ckpt, load_module_only=True)加载,这个地方加载的过程中会默认不加载吗?
self.activation_checkpointing是ParallelTransformerLayerPipe内部使用的,不会传给hf的llama
self.activation_checkpointing
ParallelTransformerLayerPipe
您好,我看您在ParallelTransformerLayerPipe里增加了self.activation_checkpointing = activation_checkpointing,但是这个参数在llama模型里是没有的,加载llama的模型不会出错吗。 我看在更新的代码中,是先把hf格式转化为deepspeed的格式,然后engine.load_checkpoint(model_args.init_ckpt, load_module_only=True)加载,这个地方加载的过程中会默认不加载吗?