运行finetune_continue.sh，日志显示很多权重的key都missing了，没load进去

Ulysses0817 commented 1 year ago

如果你遇到问题需要我们帮助，你可以从以下角度描述你的信息，以便于我们可以理解或者复现你的错误（学会如何提问不仅是能帮助我们理解你，也是一个自查的过程）： 1、你使用了哪个脚本、使用的什么命令 bash finetune_continue.sh 2、你的参数是什么（脚本参数、命令参数）

TOT_CUDA="0,1"
CUDAs=(${TOT_CUDA//,/ })
CUDA_NUM=${#CUDAs[@]}
PORT="12345"

DATA_PATH="./sample/merge.json" #"../dataset/instruction/guanaco_non_chat_mini_52K-utf8.json"
OUTPUT_PATH="lora-Vicuna-url"
MODEL_PATH="/cfs/cfs-15fkvgwj/zedali/llama/ft_local"
lora_checkpoint="./lora-Vicuna/checkpoint-11600"
from_data_beginning=False # True
TEST_SIZE=1

CUDA_VISIBLE_DEVICES=${TOT_CUDA} torchrun --nproc_per_node=$CUDA_NUM --master_port=$PORT finetune.py \
--data_path $DATA_PATH \
--output_path $OUTPUT_PATH \
--model_path $MODEL_PATH \
--eval_steps 200 \
--save_steps 200 \
--test_size $TEST_SIZE \
--resume_from_checkpoint $lora_checkpoint \
--ignore_data_skip $from_data_beginning

3、你是否修改过我们的代码

CUTOFF_LEN = 2048  # 256 accounts for about 96% of the data

4、你用的哪个数据集自己的2k条样本

然后你可以从环境的角度描述你的问题，这些问题我们在readme已经相关的问题及解决可能会有描述： 1、哪个操作系统 centos 2、使用的什么显卡、多少张 P40，2张 3、python的版本 python 3.9.2 4、python各种库的版本 Package Version

accelerate 0.18.0 datasets 2.11.0 gradio 3.25.0 gradio-client 0.0.8 loralib 0.1.1 nvidia-cublas-cu11 11.10.3.66 nvidia-cuda-cupti-cu11 11.7.101 nvidia-cuda-nvrtc-cu11 11.7.99 nvidia-cuda-runtime-cu11 11.7.99 nvidia-cudnn-cu11 8.5.0.96 nvidia-cufft-cu11 10.9.0.58 nvidia-curand-cu11 10.2.10.91 nvidia-cusolver-cu11 11.4.0.1 nvidia-cusparse-cu11 11.7.4.91 nvidia-nccl-cu11 2.14.3 nvidia-nvtx-cu11 11.7.91 peft 0.3.0.dev0 semantic-version 2.10.0 sentencepiece 0.1.97 tiktoken 0.3.3 tokenizers 0.13.3 torch 2.0.0 transformers 4.28.0.dev0

然后你也可以从运行的角度来描述你的问题： 1、很多权重都missing了，没load进去，但是有正常运行。这是否表明没有load载入"./lora-Vicuna/checkpoint-11600"里的权重，在重0开始训练lora呢？

2、前11000个step，很快就好了，但是11000-11657，跑了十几个小时。。。不知道是否正常

3、GPU状态正常，满载：

Facico commented 1 year ago

missing key的warning是没有问题的，可以参考这个issue

Ulysses0817 commented 1 year ago

好的，谢谢～不过2048的maxtoken训练起来好慢😭

Facico / Chinese-Vicuna

运行finetune_continue.sh，日志显示很多权重的key都missing了，没load进去 #65