ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.23k stars 325 forks source link

Meta-Llama-3-70B-Instruct #470

Open longcheng183 opened 4 weeks ago

longcheng183 commented 4 weeks ago

问一下博主,支持加速Meta-Llama-3-70B-Instruct吗,我用您的方法加速Meta-Llama-3-70B-Instruct结果回复的都是反斜杠 image

ztxz16 commented 4 weeks ago

是用的int4模型吗? 这个模型int4精度好像不太够,可以试试int4g (int4分组量化) 这个模型可以不用转模型直接读取(类似下面的命令) ./main -p /yourpath/meta-llama/Meta-Llama-3-70B-Instruct/ --dtype int4g 类似这样,dtype那里可以分别试试int8, int4g, int4g256,我本地测试都是能正常输出的

longcheng183 commented 4 weeks ago

感谢博主,已解决,这个模型采用了int4分组量化后可用

longcheng183 commented 4 weeks ago

博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题

ztxz16 commented 3 weeks ago

博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题

这个模型运行的时候好像得指定 --eos_token "<|eot_id|>",因为它模型里面定义的eos_token不是这个(官方代码里面也这么指定了)

longcheng183 commented 3 weeks ago

博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题

这个模型运行的时候好像得指定 --eos_token "<|eot_id|>",因为它模型里面定义的eos_token不是这个(官方代码里面也这么指定了)

感谢博主,加了这个命令后问题已解决,非常感谢您