Open FdyCN opened 1 year ago
不太确定具体原因,有种可能是模型一直在输出空白token 可能引起这个问题的原因有可能是CMakeLists.txt里面的CUDA的flag "native"没有识别成功,生成的CUDA可执行有bug 可以尝试用CPU跑一下,如果CPU没问题的话应该就是CUDA代码编译失败,可以把native改成设备对应的计算力
@ztxz16 python api没有办法显式选择Backend么?(看了下readme似乎没看到对应的示例
我用CPU版的也是,不知道等了多久才跑出来一句
我使用的是NVIDIA 4070 8G的显卡,chatglm-6b-int4-hf模型是可以跑的,但是从fp16转换到int4的fastllm模型之后,使用./main测试,直接卡了20分钟也没出结果。
模型转换代码:
使用main测试:
然后就直接卡住了:
模型大小看起来5G的样子也说的过去: