ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.28k stars 332 forks source link

chinese-llama-alpaca 模型 BUG #90

Open levishen opened 1 year ago

levishen commented 1 year ago

如题, 会出现爆显存的问题,并打印如下错误: status = 7 2049 1 128 Error: cublas error. terminate called after throwing an instance of 'char const*' Aborted (core dumped)

ztxz16 commented 1 year ago

是不是输入长度超过2048了,早期的LLAMA好像限制了长度不超过2048 (其实就是rotary_embdding的时候位置编码只开到了2048),我之后把这个值开大应该就可以了

levishen commented 1 year ago

输入文本是: 北京有什么景点?

长度不会超过2048呀

levishen commented 1 year ago
  1. 通过在 response 接口中 限制 max_length=400, 不会出现爆显存的情况了。
  2. 但是生成的内容质量很差 image