Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 425 forks source link

运行finetune_continue.sh,日志显示很多权重的key都missing了,没load进去 #65

Closed Ulysses0817 closed 1 year ago

Ulysses0817 commented 1 year ago

如果你遇到问题需要我们帮助,你可以从以下角度描述你的信息,以便于我们可以理解或者复现你的错误(学会如何提问不仅是能帮助我们理解你,也是一个自查的过程): 1、你使用了哪个脚本、使用的什么命令 bash finetune_continue.sh 2、你的参数是什么(脚本参数、命令参数)

TOT_CUDA="0,1"
CUDAs=(${TOT_CUDA//,/ })
CUDA_NUM=${#CUDAs[@]}
PORT="12345"

DATA_PATH="./sample/merge.json" #"../dataset/instruction/guanaco_non_chat_mini_52K-utf8.json"
OUTPUT_PATH="lora-Vicuna-url"
MODEL_PATH="/cfs/cfs-15fkvgwj/zedali/llama/ft_local"
lora_checkpoint="./lora-Vicuna/checkpoint-11600"
from_data_beginning=False # True
TEST_SIZE=1

CUDA_VISIBLE_DEVICES=${TOT_CUDA} torchrun --nproc_per_node=$CUDA_NUM --master_port=$PORT finetune.py \
--data_path $DATA_PATH \
--output_path $OUTPUT_PATH \
--model_path $MODEL_PATH \
--eval_steps 200 \
--save_steps 200 \
--test_size $TEST_SIZE \
--resume_from_checkpoint $lora_checkpoint \
--ignore_data_skip $from_data_beginning

3、你是否修改过我们的代码

CUTOFF_LEN = 2048  # 256 accounts for about 96% of the data

4、你用的哪个数据集 自己的2k条样本

然后你可以从环境的角度描述你的问题,这些问题我们在readme已经相关的问题及解决可能会有描述: 1、哪个操作系统 centos 2、使用的什么显卡、多少张 P40,2张 3、python的版本 python 3.9.2 4、python各种库的版本 Package Version


accelerate 0.18.0 datasets 2.11.0 gradio 3.25.0 gradio-client 0.0.8 loralib 0.1.1 nvidia-cublas-cu11 11.10.3.66 nvidia-cuda-cupti-cu11 11.7.101 nvidia-cuda-nvrtc-cu11 11.7.99 nvidia-cuda-runtime-cu11 11.7.99 nvidia-cudnn-cu11 8.5.0.96 nvidia-cufft-cu11 10.9.0.58 nvidia-curand-cu11 10.2.10.91 nvidia-cusolver-cu11 11.4.0.1 nvidia-cusparse-cu11 11.7.4.91 nvidia-nccl-cu11 2.14.3 nvidia-nvtx-cu11 11.7.91 peft 0.3.0.dev0 semantic-version 2.10.0 sentencepiece 0.1.97 tiktoken 0.3.3 tokenizers 0.13.3 torch 2.0.0 transformers 4.28.0.dev0

然后你也可以从运行的角度来描述你的问题: 1、很多权重都missing了,没load进去,但是有正常运行。这是否表明没有load载入"./lora-Vicuna/checkpoint-11600"里的权重,在重0开始训练lora呢?

image

2、前11000个step,很快就好了,但是11000-11657,跑了十几个小时。。。不知道是否正常

image

3、GPU状态正常,满载:

image
Facico commented 1 year ago

missing key的warning是没有问题的,可以参考这个issue

Ulysses0817 commented 1 year ago

好的,谢谢~不过2048的maxtoken训练起来好慢😭