你好,有一些问题-

sheldon-pan commented 4 years ago

使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么?
1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么?
如何解决GPU的利用率问题,也就是作业排队谢谢

shenuiuin commented 4 years ago

一、对的，会一直运行，当然也可以关闭容器，你需要的时候开启。退出重启不会重新分配IP 二、恩恩，多人使用多GPU，第一种是可以把全部GPU分配给每个人，每个人能看到所有的显卡，当然这时候就需要协商好，我用前面几块，你用后面几块。第二种的话是每人分配固定的一块，自己只能看到这一块，别人如果分配的是另一块的话也看不到你的。不过这种方法，我还不清楚怎么每个人分配多块。只有一块的话可能不够用，现在我实验室使用的是第一种。靠协商使用。三、在第二个问题里面，只有当GPU空闲时才能跑，这是实验室的小型服务器，没有考虑到排队。当然也可以自己写shell脚本，当显卡空闲时，自动跑你设置好的代码

sheldon-pan commented 4 years ago

谢谢~ 我现在在做实验室集群的GPU分布式训练来着,也是打算采用容器的样式,不过就想只做成应用容器,docker singularity那种,不用k8s而是用slurm,看看能不能做.不过总体还没有搭起来… 😂

发送自 Windows 10 版邮件https://go.microsoft.com/fwlink/?LinkId=550986应用

发件人: shenuiuinmailto:notifications@github.com 发送时间: 2019年12月26日 19:32 收件人: shenuiuin/LXD_GPU_SERVERmailto:LXD_GPU_SERVER@noreply.github.com 抄送: 晓东mailto:sheldon.pan@hotmail.com; Authormailto:author@noreply.github.com 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2)

使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么?
1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么?
如何解决GPU的利用率问题,也就是作业排队谢谢

一、对的，会一直运行，当然也可以关闭容器，你需要的时候开启。退出重启不会重新分配IP 二、恩恩，多人使用多GPU，第一种是可以把全部GPU分配给每个人，每个人能看到所有的显卡，当然这时候就需要协商好，我用前面几块，你用后面几块。第二种的话是每人分配固定的一块，自己只能看到这一块，别人如果分配的是另一块的话也看不到你的。不过这种方法，我还不清楚怎么每个人分配多块。只有一块的话可能不够用，现在我实验室使用的是第一种。靠协商使用。三、在第二个问题里面，只有当GPU空闲时才能跑，这是实验室的小型服务器，没有考虑到排队。当然也可以自己写shell脚本，当显卡空闲时，自动跑你设置好的代码

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHubhttps://github.com/shenuiuin/LXD_GPU_SERVER/issues/2?email_source=notifications&email_token=AHLGALCPTFPFAC36RXQ2ALLQ2SI5VA5CNFSM4J7ECE32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEHVOOLI#issuecomment-569042733, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AHLGALGOLJIHXMVEI34WXILQ2SI5VANCNFSM4J7ECE3Q.

shenuiuin commented 4 years ago

不好意思，我们实验室只有一台八路泰坦的GPU服务器，没有分布式集群的环境。没有进行研究过

------------------ 原始邮件 ------------------ 发件人: "晓东"<notifications@github.com>; 发送时间: 2019年12月26日(星期四) 晚上7:55 收件人: "shenuiuin/LXD_GPU_SERVER"<LXD_GPU_SERVER@noreply.github.com>; 抄送: "shenuiuin"<841463650@qq.com>;"Comment"<comment@noreply.github.com>; 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2)

谢谢~ 我现在在做实验室集群的GPU分布式训练来着,也是打算采用容器的样式,不过就想只做成应用容器,docker singularity那种,不用k8s而是用slurm,看看能不能做.不过总体还没有搭起来… 😂

发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用

发件人: shenuiuin<mailto:notifications@github.com> 发送时间: 2019年12月26日 19:32 收件人: shenuiuin/LXD_GPU_SERVER<mailto:LXD_GPU_SERVER@noreply.github.com> 抄送: 晓东<mailto:sheldon.pan@hotmail.com>; Author<mailto:author@noreply.github.com> 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2)

使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么?
1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么?
如何解决GPU的利用率问题,也就是作业排队谢谢

一、对的，会一直运行，当然也可以关闭容器，你需要的时候开启。退出重启不会重新分配IP 二、恩恩，多人使用多GPU，第一种是可以把全部GPU分配给每个人，每个人能看到所有的显卡，当然这时候就需要协商好，我用前面几块，你用后面几块。第二种的话是每人分配固定的一块，自己只能看到这一块，别人如果分配的是另一块的话也看不到你的。不过这种方法，我还不清楚怎么每个人分配多块。只有一块的话可能不够用，现在我实验室使用的是第一种。靠协商使用。三、在第二个问题里面，只有当GPU空闲时才能跑，这是实验室的小型服务器，没有考虑到排队。当然也可以自己写shell脚本，当显卡空闲时，自动跑你设置好的代码

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub<https://github.com/shenuiuin/LXD_GPU_SERVER/issues/2?email_source=notifications&email_token=AHLGALCPTFPFAC36RXQ2ALLQ2SI5VA5CNFSM4J7ECE32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEHVOOLI#issuecomment-569042733>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/AHLGALGOLJIHXMVEI34WXILQ2SI5VANCNFSM4J7ECE3Q>.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

llt19903767731 commented 4 years ago

谢谢~ 我现在在做实验室集群的GPU分布式训练来着,也是打算采用容器的样式,不过就想只做成应用容器,docker singularity那种,不用k8s而是用slurm,看看能不能做.不过总体还没有搭起来… 😂 发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用发件人: shenuiuinmailto:notifications@github.com 发送时间: 2019年12月26日 19:32 收件人: shenuiuin/LXD_GPU_SERVERmailto:LXD_GPU_SERVER@noreply.github.com 抄送: 晓东mailto:sheldon.pan@hotmail.com; Authormailto:author@noreply.github.com 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2) 1. 使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么? 2. 1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么? 3. 如何解决GPU的利用率问题,也就是作业排队谢谢一、对的，会一直运行，当然也可以关闭容器，你需要的时候开启。退出重启不会重新分配IP 二、恩恩，多人使用多GPU，第一种是可以把全部GPU分配给每个人，每个人能看到所有的显卡，当然这时候就需要协商好，我用前面几块，你用后面几块。第二种的话是每人分配固定的一块，自己只能看到这一块，别人如果分配的是另一块的话也看不到你的。不过这种方法，我还不清楚怎么每个人分配多块。只有一块的话可能不够用，现在我实验室使用的是第一种。靠协商使用。三、在第二个问题里面，只有当GPU空闲时才能跑，这是实验室的小型服务器，没有考虑到排队。当然也可以自己写shell脚本，当显卡空闲时，自动跑你设置好的代码 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub<#2?email_source=notifications&email_token=AHLGALCPTFPFAC36RXQ2ALLQ2SI5VA5CNFSM4J7ECE32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEHVOOLI#issuecomment-569042733>, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AHLGALGOLJIHXMVEI34WXILQ2SI5VANCNFSM4J7ECE3Q.

你好，有一些问题想和你交流下，可以留个联系方式吗？

shenuiuin commented 4 years ago

谢谢~ 我现在在做实验室集群的GPU分布式训练来着,也是打算采用容器的样式,不过就想只做成应用容器,docker singularity那种,不用k8s而是用slurm,看看能不能做.不过总体还没有搭起来… joy 发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用发件人: shenuiuinmailto:notifications@github.com 发送时间: 2019年12月26日 19:32 收件人: shenuiuin/LXD_GPU_SERVERmailto:LXD_GPU_SERVER@noreply.github.com 抄送: 晓东mailto:sheldon.pan@hotmail.com; Authormailto:author@noreply.github.com 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2) 1. 使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么? 2. 1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么? 3. 如何解决GPU的利用率问题,也就是作业排队谢谢一、对的，会一直运行，当然也可以关闭容器，你需要的时候开启。退出重启不会重新分配IP 二、恩恩，多人使用多GPU，第一种是可以把全部GPU分配给每个人，每个人能看到所有的显卡，当然这时候就需要协商好，我用前面几块，你用后面几块。第二种的话是每人分配固定的一块，自己只能看到这一块，别人如果分配的是另一块的话也看不到你的。不过这种方法，我还不清楚怎么每个人分配多块。只有一块的话可能不够用，现在我实验室使用的是第一种。靠协商使用。三、在第二个问题里面，只有当GPU空闲时才能跑，这是实验室的小型服务器，没有考虑到排队。当然也可以自己写shell脚本，当显卡空闲时，自动跑你设置好的代码 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub<#2?email_source=notifications&email_token=AHLGALCPTFPFAC36RXQ2ALLQ2SI5VA5CNFSM4J7ECE32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEHVOOLI#issuecomment-569042733>, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AHLGALGOLJIHXMVEI34WXILQ2SI5VANCNFSM4J7ECE3Q.

你好，有一些问题想和你交流下，可以留个联系方式吗？

可以加我QQ：841463650

shenuiuin / LXD_GPU_SERVER

你好,有一些问题- #2