请问单卡2080ti成功微调的环境是什么呢？

ghosthamlet / gpt2-ml-torch

Pytorch model for https://github.com/imcaspar/gpt2-ml

Apache License 2.0

79 stars 16 forks source link

请问单卡2080ti成功微调的环境是什么呢？ #22

Closed NLPIG closed 3 years ago

NLPIG commented 3 years ago

您好，我在win10、RTX 3060 、cuda11.1、pytorch官网对应pytorch（1.9+cuda111）调试失败，因为deepspeed（0.3.16）没有添加到环境变量，CMD deepspeed的时候就报错deepspeed不是可用命令。然后我下载了ubuntu 20.04、cuda11.1+pytorch对应的linux版本，同样出现错误，这次是找不cuda某个dll，我猜应该是cuda版本的问题。 ------------以上是废话-------------- 【正题】想问问您实现2080ti成功微调的系统、显卡驱动版本、cuda版本、pytorch版本，我想收张2080ti来复刻一份（原先我以为11G的2080ti能成功调试的话12G的3060也能成功），我们在进行一个小组实验课题，这是第三个issues，非常感谢您的回答！

NLPIG commented 3 years ago

问题二：请问原版（tf版）也能实现deepspeed进行微调吗？

ghosthamlet commented 3 years ago

@NLPIG 不客气

问题一： ubuntu ..................... 16.10和18.04.5 显卡....................1080ti和2080ti 显卡驱动....................440.33.01 pytorch .................... 1.7.1 pytorch cuda ............... 10.2 nvcc ..................... 10.2 deepspeed ..................... >=0.3.7 transformers.....................>=3.1.0和<=3.5.1 以上版本都测试通过，3060的显卡我还没有测试。

问题二： deepspeed目前没有tf版本，tf版本需要用其他方法做微调。

NLPIG commented 3 years ago

@NLPIG 不客气

问题一： ubuntu ..................... 16.10和18.04.5 显卡....................1080ti和2080ti 显卡驱动....................440.33.01 pytorch .................... 1.7.1 pytorch cuda ............... 10.2 nvcc ..................... 10.2 deepspeed ..................... >=0.3.7 transformers.....................>=3.1.0和<=3.5.1 以上版本都测试通过，3060的显卡我还没有测试。

问题二： deepspeed目前没有tf版本，tf版本需要用其他方法做微调。

大佬您好，关于问题一：您用1080ti+2080ti做并行吗，怎么实现呢，不同型号显卡居然也能并行？关于问题二：deepspeed不行，但好像国内天元最新的DTR技术可以哦，您抽空看看megengine，官网介绍：说是能让2080ti也能微调V100-32G才能微调的模型。

ghosthamlet commented 3 years ago

问题一：没有做并行，1080ti是我工作电脑上的，2080ti是GPU服务器上的。问题二：谢谢推荐megengine。megengine好像是一个完整的深度学习框架内置了大规模分布式训练功能，不能和tf或者pytorch搭配一起用吧？类似这样的的深度学习框架国内还有一个mindspore看上去也不错：https://github.com/mindspore-ai/mindspore 。不过pytorch加上deepspeed，运用上比较简单，而且现在可以把模型训练中的所有状态即参数、梯度、activiations和优化器状态全部offload到cpu和NVMe固态硬盘中，所以理论上用一块2080ti甚至能微调1000亿参数以上的模型。

NLPIG commented 3 years ago

问题一：没有做并行，1080ti是我工作电脑上的，2080ti是GPU服务器上的。问题二：谢谢推荐megengine。megengine好像是一个完整的深度学习框架内置了大规模分布式训练功能，不能和tf或者pytorch搭配一起用吧？类似这样的的深度学习框架国内还有一个mindspore看上去也不错：https://github.com/mindspore-ai/mindspore 。不过pytorch加上deepspeed，运用上比较简单，而且现在可以把模型训练中的所有状态即参数、梯度、activiations和优化器状态全部offload到cpu和NVMe固态硬盘中，所以理论上用一块2080ti甚至能微调1000亿参数以上的模型。

受教了，再次感谢！