sophgo / LLM-TPU

Run generative AI models in sophgo BM1684X
Other
124 stars 19 forks source link

在跑github下载已经转好的qwen-vl-chat-combine.bmodel模型时,会提示内存不足 #37

Open xuyang1102 opened 3 months ago

xuyang1102 commented 3 months ago

用bmrt_test --bmodel 测试模型时发现的这个问题 IMG_20240801_222640 IMG_20240801_222701 IMG_20240801_222721 IMG_20240801_230835

chuxiaoyi2023 commented 3 months ago

可以试试在bmrt_test的时候,观察bm-smi的变动情况,如果内存逐渐增加,并且到11711MB左右时快爆了,那说明可能需要调大内存

参考这个 https://github.com/sophgo/LLM-TPU/blob/main/docs/FAQ.md

Q10这个问题

./memory_edit.sh -c -npu 7168 -vpu 3072 -vpp 4096

xuyang1102 commented 3 months ago

但目前看到的是,显存到了8.6G左右时,就报这个错误了,还没有达到我设置的11G

xuyang1102 commented 3 months ago

如果设置的11G,是NPU可用的总共11G吗