Open longcheng183 opened 4 weeks ago
是用的int4模型吗? 这个模型int4精度好像不太够,可以试试int4g (int4分组量化) 这个模型可以不用转模型直接读取(类似下面的命令) ./main -p /yourpath/meta-llama/Meta-Llama-3-70B-Instruct/ --dtype int4g 类似这样,dtype那里可以分别试试int8, int4g, int4g256,我本地测试都是能正常输出的
感谢博主,已解决,这个模型采用了int4分组量化后可用
博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题
博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题
这个模型运行的时候好像得指定 --eos_token "<|eot_id|>",因为它模型里面定义的eos_token不是这个(官方代码里面也这么指定了)
博主我再像您请教一个问题,./main -p fastllm_int4g_70B.flm 用这个命令跑,问一个问题之后他会一直回复,除非用ctrl c终止程序,如何才能达成持续性的连续问问题
这个模型运行的时候好像得指定 --eos_token "<|eot_id|>",因为它模型里面定义的eos_token不是这个(官方代码里面也这么指定了)
感谢博主,加了这个命令后问题已解决,非常感谢您
问一下博主,支持加速Meta-Llama-3-70B-Instruct吗,我用您的方法加速Meta-Llama-3-70B-Instruct结果回复的都是反斜杠![image](https://github.com/ztxz16/fastllm/assets/173896419/eb696cab-aae0-4295-bca5-9a34646bb8bf)