Open gengpeip opened 2 months ago
torch.cuda.is_available()看下true还是false
torch.cuda.is_available()看下true还是false
true
显存占用情况给一下
显存占用情况给一下
确实速度不太对,贴一下运行命令
确实速度不太对,贴一下运行命令 NPROC_PER_NODE=1 CUDA_VISIBLE_DEVICES=0,1,2,3 swift sft --model_id_or_path /data/Qwen1.5-14B-Chat --sft_type lora --custom_train_dataset_path /data/dataset/data_v2/tm_law/filtered_CrimeKgAssitant_52k.json /data/dataset/data_v2/tm_law/filtered_DISC.json /data/dataset/data_v2/tm_law/filtered_qa_train.json /data/dataset/data_v2/tm_law/merged_hanfei.json /data/dataset/data_v2/tm_law/tminstruct-lawgpt.json /data/dataset/data_v2/tm_law/tm_hand.json /data/dataset/data_v2/selected_data.json --logging_steps 5 --max_length 4096 --check_dataset_strategy warning --learning_rate 1e-4 --warmup_ratio 0.03 --output_dir /data/qwen1.5_14b_sftoutput2 --lora_target_modules ALL --self_cognition_sample 500 --model_name 哈哈大模型 'HH Large Language Model' --model_author 哈哈哈 hhh --weight_decay 0.01 --save_steps 50 --save_only_model False --model_type qwen1half-14b-chat --gradient_accumulation_steps 32 --batch_size 2 --dataset_test_ratio 0.05
14b 卡不够啊,你试试7b
感觉权重参数offload到cpu中了
14b 卡不够啊,你试试7b
我们之前训过一版14B的,卡是够的,10万条数据大概用了两天多,没改变环境,重新训练,时间变成13天了
14b 卡不够啊,你试试7b
我们之前训过一版14B的,卡是够的,10万条数据大概用了两天多,没改变环境,重新训练,时间变成13天了
@gengpeip 请问你解决了吗?
14b 卡不够啊,你试试7b
我们之前训过一版14B的,卡是够的,10万条数据大概用了两天多,没改变环境,重新训练,时间变成13天了
@gengpeip 请问你解决了吗? 还没有
请问微调速度变慢跟这两句提醒有关系吗?微调速度慢得不太正常~