Meta-Llama-3-70B-Instruct

ztxz16 / fastllm

纯c++的全平台llm加速库，支持python调用，chatglm-6B级模型单卡可达10000+token / s，支持glm, llama, moss基座，手机端流畅运行

Apache License 2.0

3.23k stars 325 forks source link

Meta-Llama-3-70B-Instruct #470

Open longcheng183 opened 4 weeks ago

longcheng183 commented 4 weeks ago

问一下博主，支持加速Meta-Llama-3-70B-Instruct吗，我用您的方法加速Meta-Llama-3-70B-Instruct结果回复的都是反斜杠

ztxz16 commented 4 weeks ago

是用的int4模型吗？这个模型int4精度好像不太够，可以试试int4g （int4分组量化）这个模型可以不用转模型直接读取（类似下面的命令） ./main -p /yourpath/meta-llama/Meta-Llama-3-70B-Instruct/ --dtype int4g 类似这样，dtype那里可以分别试试int8, int4g, int4g256，我本地测试都是能正常输出的

longcheng183 commented 4 weeks ago

感谢博主，已解决，这个模型采用了int4分组量化后可用

longcheng183 commented 4 weeks ago

博主我再像您请教一个问题，./main -p fastllm_int4g_70B.flm 用这个命令跑，问一个问题之后他会一直回复，除非用ctrl c终止程序，如何才能达成持续性的连续问问题

ztxz16 commented 3 weeks ago

博主我再像您请教一个问题，./main -p fastllm_int4g_70B.flm 用这个命令跑，问一个问题之后他会一直回复，除非用ctrl c终止程序，如何才能达成持续性的连续问问题

这个模型运行的时候好像得指定 --eos_token "<|eot_id|>"，因为它模型里面定义的eos_token不是这个（官方代码里面也这么指定了）

longcheng183 commented 3 weeks ago

博主我再像您请教一个问题，./main -p fastllm_int4g_70B.flm 用这个命令跑，问一个问题之后他会一直回复，除非用ctrl c终止程序，如何才能达成持续性的连续问问题

这个模型运行的时候好像得指定 --eos_token "<|eot_id|>"，因为它模型里面定义的eos_token不是这个（官方代码里面也这么指定了）

感谢博主，加了这个命令后问题已解决，非常感谢您