Closed thsun6 closed 6 months ago
另外,注意到lmdeploy chat turbomind ./workspace运行的二代7b模型,显存直接拉到23GB了,是正常的么
关于显存的问题,可以看下这个文档的说明:https://lmdeploy.readthedocs.io/en/latest/inference/pipeline.html#usage
@irexyc wsl2的问题是不是之前有个相关的issue?
https://github.com/InternLM/lmdeploy/issues/1177
wsl 下用不了linux的预编译包,可以直接在windows 宿主机上跑。
如果要在wsl下面用的话,需要自己编译。 src/turbomind/kernels/bert_preprocess_kernels.cu src/turbomind/kernels/stop_criteria_kernels.cu 这两个地方的同步需要换成 cudaStreamSynchronize(stream)
好的,直接用windows跑了
Checklist
Describe the bug
wsl2里,直接使用hugging face模型,或者按照课程内容离线转换以后(都是用的internlm2-chat-7b模型),使用如下命令,在输入你好后,命令行就卡住了 lmdeploy chat turbomind ./workspace
2024-03-22 11:42:12,793 - lmdeploy - WARNING - Input chat template with model_name is None. Forcing to use internlm2-chat-7b [WARNING] gemm_config.in is not found; using default GEMM algo session 1
double enter to end input >>> 你好
<|im_start|>system You are an AI assistant whose name is InternLM (书生·浦语).
Reproduction
lmdeploy chat turbomind ./workspace 或者使用lmdeploy chat turbomind internlm/internlm2-chat-7b --model-name internlm2-chat-7b 都是一样的结果
Environment
Error traceback
No response