seanzhang-zhichen / llama3-chinese

Llama3-Chinese是以Meta-Llama-3-8B为底座,使用 DORA + LORA+ 的训练方法,在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。
Apache License 2.0
289 stars 21 forks source link

将这个ggml模型通过llama.cpp 转为gguf格式,运行很慢不知道为啥 #3

Open kevinchi8781 opened 7 months ago

kevinchi8781 commented 7 months ago

通过llama.cpp转为gguf格式,用于ollama运行,转为了一个14.9 GB的gguf文件,然后运行,不回答问题,报错~不知道为啥,或者楼主能提供一个gguf版嘛?

seanzhang-zhichen commented 7 months ago

这个不是量化版本

flyfox666 commented 7 months ago

通过llama.cpp转为gguf格式,用于ollama运行,转为了一个14.9 GB的gguf文件,然后运行,不回答问题,报错~不知道为啥,或者楼主能提供一个gguf版嘛?

llama.cpp怎么转的啊。我一直显示失败

miaohua1982 commented 6 months ago

使用llama.cpp的convert.py可以转gguf,记得加上参数:--vocab-type bpe,完整的命令如下: python convert.py you_hf_model_path --outfile output_model_file_path --outtype f16 --vocab-type bpe,另外可以编译llama.cpp使用quantize命令量化到4 bits