OpenBMB / MiniCPM-V

MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone
Apache License 2.0
12.71k stars 891 forks source link

[llamacpp] - <title> 为什么llamacpp执行量化模型还要指定一个 f16的 mmproj-model-f16.gguf ? #657

Open friendmine opened 2 weeks ago

friendmine commented 2 weeks ago

起始日期 | Start Date

No response

实现PR | Implementation PR

https://huggingface.co/openbmb/MiniCPM-V-2_6-gguf 这里指定的量化运行,需要指定的参数包括: ./llama-minicpmv-cli -m ../MiniCPM-V-2_6/model/ggml-model-Q4_K_M.gguf --mmproj ../MiniCPM-V-2_6/mmproj-model-f16.gguf -c 4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image xx.jpg -p "What is in the image?" 其中 --mmproj ../MiniCPM-V-2_6/mmproj-model-f16.gguf , 是一个f16的版本,如何把它也量化成INT8?

相关Issues | Reference Issues

No response

摘要 | Summary

如何量化 MiniCPM-V-2_6/mmproj-model-f16.gguf 到INT8?

基本示例 | Basic Example

缺陷 | Drawbacks

未解决问题 | Unresolved questions

如何量化 MiniCPM-V-2_6/mmproj-model-f16.gguf 到INT8?

LDLINGLINGLING commented 2 weeks ago

你好,这是因为,minicpmv参数量大头在语言模型,这样量化的收益较高。