chatglm6b_v2 单机多卡训练会卡死

yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)

MIT License

2.81k stars 351 forks source link

chatglm6b_v2 单机多卡训练会卡死 #138

Open zoepo opened 1 year ago

zoepo commented 1 year ago

使用的官方checkpoint及大佬的代码，数据集为广告词，官方代码相应位置已经修改，设备是单机两张T4显卡，双卡显存全部爆满，同时epoch进行不下去会卡死 WX20230720-172044

yuanzhoulvpi2017 commented 1 year ago

你这是改了代码吧，看样子，你用了数据并行，并没有用模型并行，检查一下代码

zoepo commented 1 year ago

你这是改了代码吧，看样子，你用了数据并行，并没有用模型并行，检查一下代码

应该是只动了的内容train.sh，能请大佬指点一下具体需要检查哪一块吗？

yuanzhoulvpi2017 commented 1 year ago

我发布的版本，是模型并行的，但是你这个显示是数据并行。不知道你到底改了什么。建议你把修改的地方，对我说一下，我才知道怎么解决

zoepo commented 1 year ago

我发布的版本，是模型并行的，但是你这个显示是数据并行。不知道你到底改了什么。建议你把修改的地方，对我说一下，我才知道怎么解决

我这边重新下载了代码，还是出现一样的问题

yuanzhoulvpi2017 commented 1 year ago

检查一下版本问题吧，把transformers升级到最高吧

zoepo commented 1 year ago

检查一下版本问题吧，把transformers升级到最高吧

确实是transformers的问题，更新后这个问题没了，但是出现新的cuda bug，如图

yuanzhoulvpi2017 commented 1 year ago

看看本机能不能用模型并行，参考这个链接https://pytorch.org/tutorials/intermediate/model_parallel_tutorial.html


import torch
import torch.nn as nn
import torch.optim as optim

class ToyModel(nn.Module):
    def __init__(self):
        super(ToyModel, self).__init__()
        self.net1 = torch.nn.Linear(10, 10).to('cuda:0')
        self.relu = torch.nn.ReLU()
        self.net2 = torch.nn.Linear(10, 5).to('cuda:1')

    def forward(self, x):
        x = self.relu(self.net1(x.to('cuda:0')))
        return self.net2(x.to('cuda:1'))

model = ToyModel()
loss_fn = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.001)

optimizer.zero_grad()
outputs = model(torch.randn(20, 10))
labels = torch.randn(20, 5).to('cuda:1')
loss_fn(outputs, labels).backward()
optimizer.step()