Open ZJU-lishuang opened 1 month ago
你的 --supervisor-port 是 9996 worker 里应该 xinference-worker -e "http://${supervisor_host}:9996" 吧
官方文档写的是web ui的端口
你的 --supervisor-port 是 9996 worker 里应该 xinference-worker -e "http://${supervisor_host}:9996" 吧
试了一下,不行,直接卡住了。9997端口开始还能正常打印
worker 里的 -H 0.0.0.0 改成服务器的 ip 试试,我看了我的配置,应该是这个问题
感谢,但我的需求是一台服务器启动supervisor,另一台服务器启动worker。集群里面有多个服务器
我也是这样的集群,可以重现出你的报错,改成实际的 ip 就启动成功了
(llm) aigroup@root:/data/llmops/scripts$ xinference-worker -H 0.0.0.0 -e "http://my_supervisor_host:9999"
2024-07-26 02:10:16,502 xinference.core.worker 3039962 INFO Starting metrics export server at 0.0.0.0:None
2024-07-26 02:10:16,506 xinference.core.worker 3039962 INFO Checking metrics export server...
2024-07-26 02:10:19,531 xinference.core.worker 3039962 INFO Metrics server is started at: http://0.0.0.0:33671
Traceback (most recent call last):
....
ConnectionRefusedError: [address=my_supervisor_host:29051, pid=1235954] [Errno 111] Connect call failed ('0.0.0.0', 17883)
(llm) aigroup@root:/data/llmops/scripts$ xinference-worker -H my_worker_host -e "http://my_supervisor_host:9999"
2024-07-26 02:10:49,885 xinference.core.worker 3040160 INFO Starting metrics export server at 0.0.0.0:None
2024-07-26 02:10:49,886 xinference.core.worker 3040160 INFO Checking metrics export server...
2024-07-26 02:10:52,889 xinference.core.worker 3040160 INFO Metrics server is started at: http://0.0.0.0:33139
2024-07-26 02:10:52,905 xinference.core.worker 3040160 INFO Xinference worker my_worker_host:48747 started
需要不同服务器间的容器组网,能相互访问到。我直接用--net=host了
本来打算用-p 9997:9997 -p 9996:9996的,看来不能直接用了。
我也是这样的集群,可以重现出你的报错,改成实际的 ip 就启动成功了
(llm) aigroup@root:/data/llmops/scripts$ xinference-worker -H 0.0.0.0 -e "http://my_supervisor_host:9999" 2024-07-26 02:10:16,502 xinference.core.worker 3039962 INFO Starting metrics export server at 0.0.0.0:None 2024-07-26 02:10:16,506 xinference.core.worker 3039962 INFO Checking metrics export server... 2024-07-26 02:10:19,531 xinference.core.worker 3039962 INFO Metrics server is started at: http://0.0.0.0:33671 Traceback (most recent call last): .... ConnectionRefusedError: [address=my_supervisor_host:29051, pid=1235954] [Errno 111] Connect call failed ('0.0.0.0', 17883) (llm) aigroup@root:/data/llmops/scripts$ xinference-worker -H my_worker_host -e "http://my_supervisor_host:9999" 2024-07-26 02:10:49,885 xinference.core.worker 3040160 INFO Starting metrics export server at 0.0.0.0:None 2024-07-26 02:10:49,886 xinference.core.worker 3040160 INFO Checking metrics export server... 2024-07-26 02:10:52,889 xinference.core.worker 3040160 INFO Metrics server is started at: http://0.0.0.0:33139 2024-07-26 02:10:52,905 xinference.core.worker 3040160 INFO Xinference worker my_worker_host:48747 started
这是物理机还是容器内呀?容器内的my_worker_host地址如何有效获取
我这儿容器设置--net=host,my_supervisor_host和my_worker_host 设置宿主机的地址才可以
--metrics-exporter-port 9994,想问下这个指标具体是怎么查看的,如果开启的话?还是默认日志就有~
--metrics-exporter-port 9994,想问下这个指标具体是怎么查看的,如果开启的话?还是默认日志就有~
默认就有,我只是把端口指定了,本来是随机的
work的这种,可以运行多种不同模型吗? @ZJU-lishuang
This issue is stale because it has been open for 7 days with no activity.
我这儿容器设置--net=host,my_supervisor_host和my_worker_host 设置宿主机的地址才可以
能给一下完整的docker命令吗
我这儿容器设置--net=host,my_supervisor_host和my_worker_host 设置宿主机的地址才可以
能给一下完整的docker命令吗
the same as you
我这儿容器设置--net=host,my_supervisor_host和my_worker_host 设置宿主机的地址才可以 能给一下完整的docker命令吗
the same as you
我更新到最新版本成功了,具体看我这篇文章https://zhuanlan.zhihu.com/p/581246669
我这儿容器设置--net=host,my_supervisor_host和my_worker_host 设置宿主机的地址才可以 能给一下完整的docker命令吗
the same as you
我更新到最新版本成功了,具体看我这篇文章https://zhuanlan.zhihu.com/p/581246669
容器还是设置了--net=host
通过容器启动supervisor
在另一台服务器上,在容器中启动worker失败。 指令
报错
指令
报错
请问可以限制worker端口的使用吗,如下命令应该是怎么样的才能把worker跑起来。