Closed Ulysses0817 closed 1 year ago
如果你遇到问题需要我们帮助,你可以从以下角度描述你的信息,以便于我们可以理解或者复现你的错误(学会如何提问不仅是能帮助我们理解你,也是一个自查的过程): 1、你使用了哪个脚本、使用的什么命令 bash finetune_continue.sh 2、你的参数是什么(脚本参数、命令参数)
bash finetune_continue.sh
TOT_CUDA="0,1" CUDAs=(${TOT_CUDA//,/ }) CUDA_NUM=${#CUDAs[@]} PORT="12345" DATA_PATH="./sample/merge.json" #"../dataset/instruction/guanaco_non_chat_mini_52K-utf8.json" OUTPUT_PATH="lora-Vicuna-url" MODEL_PATH="/cfs/cfs-15fkvgwj/zedali/llama/ft_local" lora_checkpoint="./lora-Vicuna/checkpoint-11600" from_data_beginning=False # True TEST_SIZE=1 CUDA_VISIBLE_DEVICES=${TOT_CUDA} torchrun --nproc_per_node=$CUDA_NUM --master_port=$PORT finetune.py \ --data_path $DATA_PATH \ --output_path $OUTPUT_PATH \ --model_path $MODEL_PATH \ --eval_steps 200 \ --save_steps 200 \ --test_size $TEST_SIZE \ --resume_from_checkpoint $lora_checkpoint \ --ignore_data_skip $from_data_beginning
3、你是否修改过我们的代码
CUTOFF_LEN = 2048 # 256 accounts for about 96% of the data
4、你用的哪个数据集 自己的2k条样本
然后你可以从环境的角度描述你的问题,这些问题我们在readme已经相关的问题及解决可能会有描述: 1、哪个操作系统 centos 2、使用的什么显卡、多少张 P40,2张 3、python的版本 python 3.9.2 4、python各种库的版本 Package Version
accelerate 0.18.0 datasets 2.11.0 gradio 3.25.0 gradio-client 0.0.8 loralib 0.1.1 nvidia-cublas-cu11 11.10.3.66 nvidia-cuda-cupti-cu11 11.7.101 nvidia-cuda-nvrtc-cu11 11.7.99 nvidia-cuda-runtime-cu11 11.7.99 nvidia-cudnn-cu11 8.5.0.96 nvidia-cufft-cu11 10.9.0.58 nvidia-curand-cu11 10.2.10.91 nvidia-cusolver-cu11 11.4.0.1 nvidia-cusparse-cu11 11.7.4.91 nvidia-nccl-cu11 2.14.3 nvidia-nvtx-cu11 11.7.91 peft 0.3.0.dev0 semantic-version 2.10.0 sentencepiece 0.1.97 tiktoken 0.3.3 tokenizers 0.13.3 torch 2.0.0 transformers 4.28.0.dev0
然后你也可以从运行的角度来描述你的问题: 1、很多权重都missing了,没load进去,但是有正常运行。这是否表明没有load载入"./lora-Vicuna/checkpoint-11600"里的权重,在重0开始训练lora呢?
2、前11000个step,很快就好了,但是11000-11657,跑了十几个小时。。。不知道是否正常
3、GPU状态正常,满载:
missing key的warning是没有问题的,可以参考这个issue
好的,谢谢~不过2048的maxtoken训练起来好慢😭
如果你遇到问题需要我们帮助,你可以从以下角度描述你的信息,以便于我们可以理解或者复现你的错误(学会如何提问不仅是能帮助我们理解你,也是一个自查的过程): 1、你使用了哪个脚本、使用的什么命令
bash finetune_continue.sh
2、你的参数是什么(脚本参数、命令参数)3、你是否修改过我们的代码
4、你用的哪个数据集 自己的2k条样本
然后你可以从环境的角度描述你的问题,这些问题我们在readme已经相关的问题及解决可能会有描述: 1、哪个操作系统 centos 2、使用的什么显卡、多少张 P40,2张 3、python的版本 python 3.9.2 4、python各种库的版本 Package Version
accelerate 0.18.0 datasets 2.11.0 gradio 3.25.0 gradio-client 0.0.8 loralib 0.1.1 nvidia-cublas-cu11 11.10.3.66 nvidia-cuda-cupti-cu11 11.7.101 nvidia-cuda-nvrtc-cu11 11.7.99 nvidia-cuda-runtime-cu11 11.7.99 nvidia-cudnn-cu11 8.5.0.96 nvidia-cufft-cu11 10.9.0.58 nvidia-curand-cu11 10.2.10.91 nvidia-cusolver-cu11 11.4.0.1 nvidia-cusparse-cu11 11.7.4.91 nvidia-nccl-cu11 2.14.3 nvidia-nvtx-cu11 11.7.91 peft 0.3.0.dev0 semantic-version 2.10.0 sentencepiece 0.1.97 tiktoken 0.3.3 tokenizers 0.13.3 torch 2.0.0 transformers 4.28.0.dev0
然后你也可以从运行的角度来描述你的问题: 1、很多权重都missing了,没load进去,但是有正常运行。这是否表明没有load载入"./lora-Vicuna/checkpoint-11600"里的权重,在重0开始训练lora呢?
2、前11000个step,很快就好了,但是11000-11657,跑了十几个小时。。。不知道是否正常
3、GPU状态正常,满载: