在跑github下载已经转好的qwen-vl-chat-combine.bmodel模型时，会提示内存不足

sophgo / LLM-TPU

Run generative AI models in sophgo BM1684X

Other

124 stars 19 forks source link

Open xuyang1102 opened 3 months ago

xuyang1102 commented 3 months ago

用bmrt_test --bmodel 测试模型时发现的这个问题 IMG_20240801_222640 IMG_20240801_222701 IMG_20240801_222721 IMG_20240801_230835

chuxiaoyi2023 commented 3 months ago

可以试试在bmrt_test的时候，观察bm-smi的变动情况，如果内存逐渐增加，并且到11711MB左右时快爆了，那说明可能需要调大内存

Q10这个问题

./memory_edit.sh -c -npu 7168 -vpu 3072 -vpp 4096

xuyang1102 commented 3 months ago

但目前看到的是，显存到了8.6G左右时，就报这个错误了，还没有达到我设置的11G

xuyang1102 commented 3 months ago

如果设置的11G，是NPU可用的总共11G吗