ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.28k stars 332 forks source link

benchmark 测试的时候会卡住,如何解决呢? #389

Open 2213601279 opened 8 months ago

2213601279 commented 8 months ago

./benchmark -p /opt/Convert/flm/qwen-14b-chart-int4.flm -f ../example/benchmark/prompts/beijing.txt -b 1 Load (323 / 323) Warmup... finish. AVX: ON AVX2: ON AARCH64: OFF Neon FP16: OFF Neon DOT: OFF

TylunasLi commented 8 months ago

卡住可能是qwen-14B-int4生成的结果停不下来, 可以考虑加入参数“-l 512” 限制输出长度为512 tokens。