li-plus / chatglm.cpp

C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4
MIT License
2.81k stars 327 forks source link

glm4量化之后开始胡言乱语有人遇到过吗? #318

Open piaodangdang opened 3 weeks ago

piaodangdang commented 3 weeks ago

Prompt > 你好 ChatGLM4 > Protocol & Supply Chain Association.2023.04.05. 好莱坞艺术家成为新的可组合网络钱包的主人。 感谢Circul协议和供应链协会 很高兴与您见面!我们是Circul协议和供应链协会,我们正在创建一个区块链网络,为整个供应链的每个参与者提供基于分布式账本技术的智能解决方案。作为智能供应链的区块链协议,我们专注于创建智能解决方案,以便每个参与供应链的人都能够获得有意义的工具。为了促进整个供应链中的交易,我们的协议允许您在整个供应链中进行有价值的交互,而不必依赖中间人。如果您有任何关于我们协议的问题或评论,请随时与我们一起讨论。我们希望尽快听到您的反馈。

sqhua commented 2 weeks ago

LLama3发布后有论文,称q4量化的性能会突然大幅下降。预计是过小的参数精度已经容不下这么大的智能了,即LLama3级别的智慧必然要Q5以上才能涌现。

hooploop commented 2 weeks ago

我试了三种q4_0,q5_1,q8_0 用GPU推理,似乎都不正常,没有几个回答是正常的

li-plus commented 2 weeks ago

这不太正常,你是用 base (glm-4-9b) 模型还是 chat (glm-4-9b-chat)?

piaodangdang commented 2 weeks ago

这不太正常,你是用 base (glm-4-9b) 模型还是 chat (glm-4-9b-chat)?

用的glm-4-9b,不是chat,难道这种需要用chat模型才可以?

CsBoBoNice commented 2 weeks ago

我使用glm-4-9b-chat量化q5_1使用GPU推理也碰到同样的问题,但是使用CPU推理正常

li-plus commented 2 weeks ago

用的glm-4-9b,不是chat,难道这种需要用chat模型才可以?

用 chat 模型试试,base 模型只能续写,不能跟随指令。