Open qianma819 opened 11 months ago
跑int4的版本啊
跑int4的版本啊
嗯,在下int版本模型了。我看有人说int4模型用tgi跑不起来,不知道为啥。你跑通没?
我只有一个8G的显卡,也不知道怎么跑起来,显示显存不足,有人能在低显存里跑起来吗?跑的是这个模型 CodeShell-7B-Chat
python3 -m fastchat.serve.model_worker --load-8bit --model-names chatglm3-6b \
--model-path /root/.cache/modelscope/hub/WisdomShell/CodeShell-7B-Chat --controller-address http://127.0.0.1:21001 \
--worker-address http://127.0.0.1:8080 --host 0.0.0.0 --port 8080
用fastchat 进行int8量化,12应该没问题
大佬们,我有两张16g的显卡,能两张显卡一起跑不?
如题,手上只有1张12G的4070显卡,在不停的调整参数,仍然没有成功。不知道有没有调整成功的,可以在12G显卡上运行,多花点时间也可以接受