Closed firslov closed 1 year ago
请问使用AMD单卡部署会报错吗?
您好,非常感谢您对CodeShell项目的支持。现阶段,由于官方TGI项目尚未开始原生地支持CodeShell模型,因此使用官方镜像并不能实现对CodeShell模型的多卡部署。
如果您需要实现多卡部署CodeShell模型,我们邀您试用我们的TGI-CodeShell分支。这一分支成功地实现了CodeShell模型与TGI推理框架的原生对接,以满足CodeShell模型多卡部署的需求。
参照TGI-CodeShell文档,您可以在本地构建TGI环境或者构建TGI-CodeShell Docker镜像。另外,我们也提供了预构建的TGI-CodeShell镜像zzr0/text-generation-inference:codeshell-1.1.1,您可以在满足条件的情况下直接使用。
请问使用AMD单卡部署会报错吗?
没有测试过AMD的卡,Nvidia的单卡没有问题。
您好,非常感谢您对CodeShell项目的支持。现阶段,由于官方TGI项目尚未开始原生地支持CodeShell模型,因此使用官方镜像并不能实现对CodeShell模型的多卡部署。
如果您需要实现多卡部署CodeShell模型,我们邀您试用我们的TGI-CodeShell分支。这一分支成功地实现了CodeShell模型与TGI推理框架的原生对接,以满足CodeShell模型多卡部署的需求。
参照TGI-CodeShell文档,您可以在本地构建TGI环境或者构建TGI-CodeShell Docker镜像。另外,我们也提供了预构建的TGI-CodeShell镜像zzr0/text-generation-inference:codeshell-1.1.1,您可以在满足条件的情况下直接使用。
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1 --model-id WisdomShell/CodeShell-7B-Chat --trust-remote-code
Unable to find image 'ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1' locally
docker: Error response from daemon: Head "https://ghcr.io/v2/zzr0/text-generation-inference/manifests/codeshell-1.1.1": denied.
请问您所说的 docker image 需要自行构建吗,在该仓库里未找到对应的dockerfile
您好,非常感谢您对CodeShell项目的支持。现阶段,由于官方TGI项目尚未开始原生地支持CodeShell模型,因此使用官方镜像并不能实现对CodeShell模型的多卡部署。 如果您需要实现多卡部署CodeShell模型,我们邀您试用我们的TGI-CodeShell分支。这一分支成功地实现了CodeShell模型与TGI推理框架的原生对接,以满足CodeShell模型多卡部署的需求。 参照TGI-CodeShell文档,您可以在本地构建TGI环境或者构建TGI-CodeShell Docker镜像。另外,我们也提供了预构建的TGI-CodeShell镜像zzr0/text-generation-inference:codeshell-1.1.1,您可以在满足条件的情况下直接使用。
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1 --model-id WisdomShell/CodeShell-7B-Chat --trust-remote-code Unable to find image 'ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1' locally docker: Error response from daemon: Head "https://ghcr.io/v2/zzr0/text-generation-inference/manifests/codeshell-1.1.1": denied.
请问您所说的 docker image 需要自行构建吗,在该仓库里未找到对应的dockerfile
抱歉,请直接使用zzr0/text-generation-inference:codeshell-1.1.1
镜像而不是ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1
您好,非常感谢您对CodeShell项目的支持。现阶段,由于官方TGI项目尚未开始原生地支持CodeShell模型,因此使用官方镜像并不能实现对CodeShell模型的多卡部署。 如果您需要实现多卡部署CodeShell模型,我们邀您试用我们的TGI-CodeShell分支。这一分支成功地实现了CodeShell模型与TGI推理框架的原生对接,以满足CodeShell模型多卡部署的需求。 参照TGI-CodeShell文档,您可以在本地构建TGI环境或者构建TGI-CodeShell Docker镜像。另外,我们也提供了预构建的TGI-CodeShell镜像zzr0/text-generation-inference:codeshell-1.1.1,您可以在满足条件的情况下直接使用。
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1 --model-id WisdomShell/CodeShell-7B-Chat --trust-remote-code Unable to find image 'ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1' locally docker: Error response from daemon: Head "https://ghcr.io/v2/zzr0/text-generation-inference/manifests/codeshell-1.1.1": denied.
请问您所说的 docker image 需要自行构建吗,在该仓库里未找到对应的dockerfile
抱歉,请直接使用
zzr0/text-generation-inference:codeshell-1.1.1
镜像而不是ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data zzr0/text-generation-inference:codeshell-1.1.1 --model-id /data --num-shard 2 --trust-remote-code
error message:
...
File "/opt/conda/lib/python3.9/site-packages/text_generation_server/server.py", line 72, in Warmup
max_supported_total_tokens = self.model.warmup(batch)
File "/opt/conda/lib/python3.9/site-packages/text_generation_server/models/flash_causal_lm.py", line 674, in warmup
raise RuntimeError(
RuntimeError: Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens`
2023-11-02T12:41:07.657550Z ERROR warmup{max_input_length=1024 max_prefill_tokens=4096}:warmup: text_generation_client: router/client/src/lib.rs:33: Server error: Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens`
Error: Warmup(Generation("Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens`"))
2023-11-02T12:41:07.755521Z ERROR text_generation_launcher: Webserver Crashed
2023-11-02T12:41:07.755558Z INFO text_generation_launcher: Shutting down shards
2023-11-02T12:41:08.022896Z INFO shard-manager: text_generation_launcher: Shard terminated rank=1
Error: WebserverFailed
2023-11-02T12:41:08.080815Z INFO shard-manager: text_generation_launcher: Shard terminated rank=0
双卡运行这个镜像时,报错 not enough memory,但是我是两张24G卡,监控显示显存占用到8G左右时就会报错
您好,非常感谢您对CodeShell项目的支持。现阶段,由于官方TGI项目尚未开始原生地支持CodeShell模型,因此使用官方镜像并不能实现对CodeShell模型的多卡部署。 如果您需要实现多卡部署CodeShell模型,我们邀您试用我们的TGI-CodeShell分支。这一分支成功地实现了CodeShell模型与TGI推理框架的原生对接,以满足CodeShell模型多卡部署的需求。 参照TGI-CodeShell文档,您可以在本地构建TGI环境或者构建TGI-CodeShell Docker镜像。另外,我们也提供了预构建的TGI-CodeShell镜像zzr0/text-generation-inference:codeshell-1.1.1,您可以在满足条件的情况下直接使用。
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1 --model-id WisdomShell/CodeShell-7B-Chat --trust-remote-code Unable to find image 'ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1' locally docker: Error response from daemon: Head "https://ghcr.io/v2/zzr0/text-generation-inference/manifests/codeshell-1.1.1": denied.
请问您所说的 docker image 需要自行构建吗,在该仓库里未找到对应的dockerfile
抱歉,请直接使用
zzr0/text-generation-inference:codeshell-1.1.1
镜像而不是ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data zzr0/text-generation-inference:codeshell-1.1.1 --model-id /data --num-shard 2 --trust-remote-code error message: ... File "/opt/conda/lib/python3.9/site-packages/text_generation_server/server.py", line 72, in Warmup max_supported_total_tokens = self.model.warmup(batch) File "/opt/conda/lib/python3.9/site-packages/text_generation_server/models/flash_causal_lm.py", line 674, in warmup raise RuntimeError( RuntimeError: Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens` 2023-11-02T12:41:07.657550Z ERROR warmup{max_input_length=1024 max_prefill_tokens=4096}:warmup: text_generation_client: router/client/src/lib.rs:33: Server error: Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens` Error: Warmup(Generation("Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens`")) 2023-11-02T12:41:07.755521Z ERROR text_generation_launcher: Webserver Crashed 2023-11-02T12:41:07.755558Z INFO text_generation_launcher: Shutting down shards 2023-11-02T12:41:08.022896Z INFO shard-manager: text_generation_launcher: Shard terminated rank=1 Error: WebserverFailed 2023-11-02T12:41:08.080815Z INFO shard-manager: text_generation_launcher: Shard terminated rank=0
双卡运行这个镜像时,报错 not enough memory,但是我是两张24G卡,监控显示显存占用到8G左右时就会报错
抱歉,你可以pull最新的zzr0/text-generation-inference:codeshell-1.1.1
镜像再试试吗?之前的镜像对多卡部署的支持还有点问题,我们已经在最新的镜像(sha256:e5d5e1fd...)中修复了。
您好,非常感谢您对CodeShell项目的支持。现阶段,由于官方TGI项目尚未开始原生地支持CodeShell模型,因此使用官方镜像并不能实现对CodeShell模型的多卡部署。 如果您需要实现多卡部署CodeShell模型,我们邀您试用我们的TGI-CodeShell分支。这一分支成功地实现了CodeShell模型与TGI推理框架的原生对接,以满足CodeShell模型多卡部署的需求。 参照TGI-CodeShell文档,您可以在本地构建TGI环境或者构建TGI-CodeShell Docker镜像。另外,我们也提供了预构建的TGI-CodeShell镜像zzr0/text-generation-inference:codeshell-1.1.1,您可以在满足条件的情况下直接使用。
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1 --model-id WisdomShell/CodeShell-7B-Chat --trust-remote-code Unable to find image 'ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1' locally docker: Error response from daemon: Head "https://ghcr.io/v2/zzr0/text-generation-inference/manifests/codeshell-1.1.1": denied.
请问您所说的 docker image 需要自行构建吗,在该仓库里未找到对应的dockerfile
抱歉,请直接使用
zzr0/text-generation-inference:codeshell-1.1.1
镜像而不是ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data zzr0/text-generation-inference:codeshell-1.1.1 --model-id /data --num-shard 2 --trust-remote-code error message: ... File "/opt/conda/lib/python3.9/site-packages/text_generation_server/server.py", line 72, in Warmup max_supported_total_tokens = self.model.warmup(batch) File "/opt/conda/lib/python3.9/site-packages/text_generation_server/models/flash_causal_lm.py", line 674, in warmup raise RuntimeError( RuntimeError: Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens` 2023-11-02T12:41:07.657550Z ERROR warmup{max_input_length=1024 max_prefill_tokens=4096}:warmup: text_generation_client: router/client/src/lib.rs:33: Server error: Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens` Error: Warmup(Generation("Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens`")) 2023-11-02T12:41:07.755521Z ERROR text_generation_launcher: Webserver Crashed 2023-11-02T12:41:07.755558Z INFO text_generation_launcher: Shutting down shards 2023-11-02T12:41:08.022896Z INFO shard-manager: text_generation_launcher: Shard terminated rank=1 Error: WebserverFailed 2023-11-02T12:41:08.080815Z INFO shard-manager: text_generation_launcher: Shard terminated rank=0
双卡运行这个镜像时,报错 not enough memory,但是我是两张24G卡,监控显示显存占用到8G左右时就会报错
抱歉,你可以pull最新的
zzr0/text-generation-inference:codeshell-1.1.1
镜像再试试吗?之前的镜像对多卡部署的支持还有点问题,我们已经在最新的镜像(sha256:e5d5e1fd...)中修复了。
新的镜像可以运行了,但是双卡各占用19G显存,请问是采用的数据并行方式吗?是否支持模型并行?
您好,非常感谢您对CodeShell项目的支持。现阶段,由于官方TGI项目尚未开始原生地支持CodeShell模型,因此使用官方镜像并不能实现对CodeShell模型的多卡部署。 如果您需要实现多卡部署CodeShell模型,我们邀您试用我们的TGI-CodeShell分支。这一分支成功地实现了CodeShell模型与TGI推理框架的原生对接,以满足CodeShell模型多卡部署的需求。 参照TGI-CodeShell文档,您可以在本地构建TGI环境或者构建TGI-CodeShell Docker镜像。另外,我们也提供了预构建的TGI-CodeShell镜像zzr0/text-generation-inference:codeshell-1.1.1,您可以在满足条件的情况下直接使用。
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1 --model-id WisdomShell/CodeShell-7B-Chat --trust-remote-code Unable to find image 'ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1' locally docker: Error response from daemon: Head "https://ghcr.io/v2/zzr0/text-generation-inference/manifests/codeshell-1.1.1": denied.
请问您所说的 docker image 需要自行构建吗,在该仓库里未找到对应的dockerfile
抱歉,请直接使用
zzr0/text-generation-inference:codeshell-1.1.1
镜像而不是ghcr.io/zzr0/text-generation-inference:codeshell-1.1.1
sudo docker run --gpus all --shm-size 1g -p 6668:80 -v /home/llh/model_hub/WisdomShell_CodeShell-7B-Chat:/data zzr0/text-generation-inference:codeshell-1.1.1 --model-id /data --num-shard 2 --trust-remote-code error message: ... File "/opt/conda/lib/python3.9/site-packages/text_generation_server/server.py", line 72, in Warmup max_supported_total_tokens = self.model.warmup(batch) File "/opt/conda/lib/python3.9/site-packages/text_generation_server/models/flash_causal_lm.py", line 674, in warmup raise RuntimeError( RuntimeError: Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens` 2023-11-02T12:41:07.657550Z ERROR warmup{max_input_length=1024 max_prefill_tokens=4096}:warmup: text_generation_client: router/client/src/lib.rs:33: Server error: Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens` Error: Warmup(Generation("Not enough memory to handle 4096 prefill tokens. You need to decrease `--max-batch-prefill-tokens`")) 2023-11-02T12:41:07.755521Z ERROR text_generation_launcher: Webserver Crashed 2023-11-02T12:41:07.755558Z INFO text_generation_launcher: Shutting down shards 2023-11-02T12:41:08.022896Z INFO shard-manager: text_generation_launcher: Shard terminated rank=1 Error: WebserverFailed 2023-11-02T12:41:08.080815Z INFO shard-manager: text_generation_launcher: Shard terminated rank=0
双卡运行这个镜像时,报错 not enough memory,但是我是两张24G卡,监控显示显存占用到8G左右时就会报错
抱歉,你可以pull最新的
zzr0/text-generation-inference:codeshell-1.1.1
镜像再试试吗?之前的镜像对多卡部署的支持还有点问题,我们已经在最新的镜像(sha256:e5d5e1fd...)中修复了。新的镜像可以运行了,但是双卡各占用19G显存,请问是采用的数据并行方式吗?是否支持模型并行?
你好,CodeShell当前的多卡推理方案已经是模型并行。显存占用过高是因为TGI推理时会预先占用满所有GPU显存以保证推理的稳定。
您好,最新的 zzr0/text-generation-inference:shell-1.4.0 镜像下载有限制吗 报错 error pulling image configuration: download failed after attempts=6: dial tcp 108.160.169.185:443: i/o timeout
设备为双RTX6000,CUDA版本12.2,执行报错: