shenuiuin / LXD_GPU_SERVER

实验室GPU服务器的LXD虚拟化
401 stars 65 forks source link

你好,有一些问题- #2

Closed sheldon-pan closed 4 years ago

sheldon-pan commented 4 years ago
  1. 使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么?
  2. 1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么?
  3. 如何解决GPU的利用率问题,也就是作业排队 谢谢
shenuiuin commented 4 years ago

一、对的,会一直运行,当然也可以关闭容器,你需要的时候开启。退出重启不会重新分配IP 二、恩恩,多人使用多GPU,第一种是可以把全部GPU分配给每个人,每个人能看到所有的显卡,当然这时候就需要协商好,我用前面几块,你用后面几块。第二种的话是每人分配固定的一块,自己只能看到这一块,别人如果分配的是另一块的话也看不到你的。不过这种方法,我还不清楚怎么每个人分配多块。只有一块的话可能不够用,现在我实验室使用的是第一种。靠协商使用。 三、在第二个问题里面,只有当GPU空闲时才能跑,这是实验室的小型服务器,没有考虑到排队。当然也可以自己写shell脚本,当显卡空闲时,自动跑你设置好的代码

sheldon-pan commented 4 years ago

谢谢~ 我现在在做实验室集群的GPU分布式训练来着,也是打算采用容器的样式,不过就想只做成应用容器,docker singularity那种,不用k8s而是用slurm,看看能不能做.不过总体还没有搭起来… 😂

发送自 Windows 10 版邮件https://go.microsoft.com/fwlink/?LinkId=550986应用

发件人: shenuiuinmailto:notifications@github.com 发送时间: 2019年12月26日 19:32 收件人: shenuiuin/LXD_GPU_SERVERmailto:LXD_GPU_SERVER@noreply.github.com 抄送: 晓东mailto:sheldon.pan@hotmail.com; Authormailto:author@noreply.github.com 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2)

  1. 使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么?
  2. 1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么?
  3. 如何解决GPU的利用率问题,也就是作业排队 谢谢

一、对的,会一直运行,当然也可以关闭容器,你需要的时候开启。退出重启不会重新分配IP 二、恩恩,多人使用多GPU,第一种是可以把全部GPU分配给每个人,每个人能看到所有的显卡,当然这时候就需要协商好,我用前面几块,你用后面几块。第二种的话是每人分配固定的一块,自己只能看到这一块,别人如果分配的是另一块的话也看不到你的。不过这种方法,我还不清楚怎么每个人分配多块。只有一块的话可能不够用,现在我实验室使用的是第一种。靠协商使用。 三、在第二个问题里面,只有当GPU空闲时才能跑,这是实验室的小型服务器,没有考虑到排队。当然也可以自己写shell脚本,当显卡空闲时,自动跑你设置好的代码

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHubhttps://github.com/shenuiuin/LXD_GPU_SERVER/issues/2?email_source=notifications&email_token=AHLGALCPTFPFAC36RXQ2ALLQ2SI5VA5CNFSM4J7ECE32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEHVOOLI#issuecomment-569042733, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AHLGALGOLJIHXMVEI34WXILQ2SI5VANCNFSM4J7ECE3Q.

shenuiuin commented 4 years ago

不好意思,我们实验室只有一台八路泰坦的GPU服务器,没有分布式集群的环境。没有进行研究过

------------------ 原始邮件 ------------------ 发件人: "晓东"<notifications@github.com>; 发送时间: 2019年12月26日(星期四) 晚上7:55 收件人: "shenuiuin/LXD_GPU_SERVER"<LXD_GPU_SERVER@noreply.github.com>; 抄送: "shenuiuin"<841463650@qq.com>;"Comment"<comment@noreply.github.com>; 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2)

谢谢~ 我现在在做实验室集群的GPU分布式训练来着,也是打算采用容器的样式,不过就想只做成应用容器,docker singularity那种,不用k8s而是用slurm,看看能不能做.不过总体还没有搭起来… 😂

发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986&gt;应用

发件人: shenuiuin<mailto:notifications@github.com> 发送时间: 2019年12月26日 19:32 收件人: shenuiuin/LXD_GPU_SERVER<mailto:LXD_GPU_SERVER@noreply.github.com> 抄送: 晓东<mailto:sheldon.pan@hotmail.com>; Author<mailto:author@noreply.github.com> 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2)

  1. 使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么?
  2. 1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么?
  3. 如何解决GPU的利用率问题,也就是作业排队 谢谢

    一、对的,会一直运行,当然也可以关闭容器,你需要的时候开启。退出重启不会重新分配IP 二、恩恩,多人使用多GPU,第一种是可以把全部GPU分配给每个人,每个人能看到所有的显卡,当然这时候就需要协商好,我用前面几块,你用后面几块。第二种的话是每人分配固定的一块,自己只能看到这一块,别人如果分配的是另一块的话也看不到你的。不过这种方法,我还不清楚怎么每个人分配多块。只有一块的话可能不够用,现在我实验室使用的是第一种。靠协商使用。 三、在第二个问题里面,只有当GPU空闲时才能跑,这是实验室的小型服务器,没有考虑到排队。当然也可以自己写shell脚本,当显卡空闲时,自动跑你设置好的代码

    — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub<https://github.com/shenuiuin/LXD_GPU_SERVER/issues/2?email_source=notifications&amp;email_token=AHLGALCPTFPFAC36RXQ2ALLQ2SI5VA5CNFSM4J7ECE32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEHVOOLI#issuecomment-569042733&gt;, or unsubscribe<https://github.com/notifications/unsubscribe-auth/AHLGALGOLJIHXMVEI34WXILQ2SI5VANCNFSM4J7ECE3Q&gt;.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

llt19903767731 commented 4 years ago

谢谢~ 我现在在做实验室集群的GPU分布式训练来着,也是打算采用容器的样式,不过就想只做成应用容器,docker singularity那种,不用k8s而是用slurm,看看能不能做.不过总体还没有搭起来… 😂 发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用 发件人: shenuiuinmailto:notifications@github.com 发送时间: 2019年12月26日 19:32 收件人: shenuiuin/LXD_GPU_SERVERmailto:LXD_GPU_SERVER@noreply.github.com 抄送: 晓东mailto:sheldon.pan@hotmail.com; Authormailto:author@noreply.github.com 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2) 1. 使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么? 2. 1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么? 3. 如何解决GPU的利用率问题,也就是作业排队 谢谢 一、对的,会一直运行,当然也可以关闭容器,你需要的时候开启。退出重启不会重新分配IP 二、恩恩,多人使用多GPU,第一种是可以把全部GPU分配给每个人,每个人能看到所有的显卡,当然这时候就需要协商好,我用前面几块,你用后面几块。第二种的话是每人分配固定的一块,自己只能看到这一块,别人如果分配的是另一块的话也看不到你的。不过这种方法,我还不清楚怎么每个人分配多块。只有一块的话可能不够用,现在我实验室使用的是第一种。靠协商使用。 三、在第二个问题里面,只有当GPU空闲时才能跑,这是实验室的小型服务器,没有考虑到排队。当然也可以自己写shell脚本,当显卡空闲时,自动跑你设置好的代码 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub<#2?email_source=notifications&email_token=AHLGALCPTFPFAC36RXQ2ALLQ2SI5VA5CNFSM4J7ECE32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEHVOOLI#issuecomment-569042733>, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AHLGALGOLJIHXMVEI34WXILQ2SI5VANCNFSM4J7ECE3Q.

你好,有一些问题想和你交流下,可以留个联系方式吗?

shenuiuin commented 4 years ago

谢谢~ 我现在在做实验室集群的GPU分布式训练来着,也是打算采用容器的样式,不过就想只做成应用容器,docker singularity那种,不用k8s而是用slurm,看看能不能做.不过总体还没有搭起来… joy 发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用 发件人: shenuiuinmailto:notifications@github.com 发送时间: 2019年12月26日 19:32 收件人: shenuiuin/LXD_GPU_SERVERmailto:LXD_GPU_SERVER@noreply.github.com 抄送: 晓东mailto:sheldon.pan@hotmail.com; Authormailto:author@noreply.github.com 主题: Re: [shenuiuin/LXD_GPU_SERVER] 你好,有一些问题- (#2) 1. 使用这种方式来搭建GPU服务器的话,是否意味着服务器端始终运行所有的容器?如果容器退出重启的话,其IP会重新分配么? 2. 1个容器使用一个GPU核心,另外一个容器能看到该GPU的工作情况么?照理说是不可以的吧,也就是说一个容器分配一个GPU是实现固定好的么? 3. 如何解决GPU的利用率问题,也就是作业排队 谢谢 一、对的,会一直运行,当然也可以关闭容器,你需要的时候开启。退出重启不会重新分配IP 二、恩恩,多人使用多GPU,第一种是可以把全部GPU分配给每个人,每个人能看到所有的显卡,当然这时候就需要协商好,我用前面几块,你用后面几块。第二种的话是每人分配固定的一块,自己只能看到这一块,别人如果分配的是另一块的话也看不到你的。不过这种方法,我还不清楚怎么每个人分配多块。只有一块的话可能不够用,现在我实验室使用的是第一种。靠协商使用。 三、在第二个问题里面,只有当GPU空闲时才能跑,这是实验室的小型服务器,没有考虑到排队。当然也可以自己写shell脚本,当显卡空闲时,自动跑你设置好的代码 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub<#2?email_source=notifications&email_token=AHLGALCPTFPFAC36RXQ2ALLQ2SI5VA5CNFSM4J7ECE32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEHVOOLI#issuecomment-569042733>, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AHLGALGOLJIHXMVEI34WXILQ2SI5VANCNFSM4J7ECE3Q.

你好,有一些问题想和你交流下,可以留个联系方式吗?

可以加我QQ:841463650