-
可能和执行变量 --model_name_or_path merged-pt 有关系 ,这样的写法在colab 执行没问题,但是本地服务器就出现下面的错。
这样的写法 --model_name_or_path ./merged-pt 也报同样的错误。
----------
INFO | __main__:main:1448 - Saving model checkpo…
-
支持Alpaca等指令数据集的SFT和RLHF流程:https://github.com/hiyouga/LLaMA-Efficient-Tuning
LoRA微调可在单块3090 GPU上运行,同时支持QLoRA方法。(最低12G显存)
微调模型的 LoRA 权重:https://huggingface.co/hiyouga/baichuan-7b-sft
运行以下指令即可实现…
-
合并步骤:
step1:lora_mode1 合并 base_model 输出 merge_model1
step2:lora_mode2 合并 merge_model1 输出 merge_model2
step3:lora_mode3 合并 merge_model2 输出 merge_model3
合并脚本(总计将7个模型合):
CUDA_VISIBLE_DEVICES=**…
-
-
/
大佬,我运行您colab的代码的时候,乱码了,
![Uploading 1704540301190.png…]()
正常是您的这样
![Uploading 1704540342999.jpg…]()
-
### Describe the Question
Please provide a clear and concise description of what the question is.
-
下载[shibing624/ziya-llama-13b-medical-merged](https://huggingface.co/shibing624/ziya-llama-13b-medical-merged),使用命令
python inference.py --model_type llama --base_model ./ziya-llama-13b-medical-merged
…
-
0% 0/103 [00:00
-
### Describe the bug
使用`CUDA_VISIBLE_DEVICES=1,2,3,4,5 python supervised_finetuning.py \` 方式启动sft不会报错,
但是使用torchrun模式,提示 `value cannot be converted to type int without overflow`, 在两周之前,运行时没有报错, 这次是重…
l1905 updated
9 months ago
-
### bug描述
使用仓库自带数据集(天龙八部),对ChatGLM-6B进行全参数预训练loss很快变为0,eval_loss = NAN.
![image](https://github.com/shibing624/MedicalGPT/assets/47347309/05986f6e-e445-4269-91db-9f4d67abb91e)
CUDA_VISIBLE_DEVICE…