SmartFlowAI / Llama3-Tutorial

Llama3-Tutorial(XTuner、LMDeploy、OpenCompass)
490 stars 50 forks source link

Llama 3 高效部署实践:增加在线量化shell命令 #20

Open techrex opened 6 months ago

techrex commented 6 months ago

在教程第四节“LMDeploy 高效部署 Llama3 实践”的“3.3 在线量化 KV”章节中,增加shell命令示例

lmdeploy chat \
    /root/model/Meta-Llama-3-8B-Instruct \
    --quant-policy 8 \
    --cache-max-entry-count 0.01