将这个ggml模型通过llama.cpp 转为gguf格式，运行很慢不知道为啥

seanzhang-zhichen / llama3-chinese

Llama3-Chinese是以Meta-Llama-3-8B为底座，使用 DORA + LORA+ 的训练方法，在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。

Apache License 2.0

289 stars 21 forks source link

将这个ggml模型通过llama.cpp 转为gguf格式，运行很慢不知道为啥 #3

Open kevinchi8781 opened 7 months ago

kevinchi8781 commented 7 months ago

通过llama.cpp转为gguf格式，用于ollama运行，转为了一个14.9 GB的gguf文件，然后运行，不回答问题，报错~不知道为啥，或者楼主能提供一个gguf版嘛？

seanzhang-zhichen commented 7 months ago

这个不是量化版本

flyfox666 commented 7 months ago

通过llama.cpp转为gguf格式，用于ollama运行，转为了一个14.9 GB的gguf文件，然后运行，不回答问题，报错~不知道为啥，或者楼主能提供一个gguf版嘛？

llama.cpp怎么转的啊。我一直显示失败

miaohua1982 commented 6 months ago

使用llama.cpp的convert.py可以转gguf，记得加上参数：--vocab-type bpe，完整的命令如下： python convert.py you_hf_model_path --outfile output_model_file_path --outtype f16 --vocab-type bpe，另外可以编译llama.cpp使用quantize命令量化到4 bits