ghosthamlet / gpt2-ml-torch

Pytorch model for https://github.com/imcaspar/gpt2-ml
Apache License 2.0
79 stars 16 forks source link

请问单卡2080ti成功微调的环境是什么呢? #22

Closed NLPIG closed 3 years ago

NLPIG commented 3 years ago

您好,我在win10、RTX 3060 、cuda11.1、pytorch官网对应pytorch(1.9+cuda111)调试失败,因为deepspeed(0.3.16)没有添加到环境变量,CMD deepspeed的时候就报错deepspeed不是可用命令。 然后我下载了ubuntu 20.04、cuda11.1+pytorch对应的linux版本,同样出现错误,这次是找不cuda某个dll,我猜应该是cuda版本的问题。 ------------以上是废话-------------- 【正题】想问问您实现2080ti成功微调的系统、显卡驱动版本、cuda版本、pytorch版本,我想收张2080ti来复刻一份(原先我以为11G的2080ti能成功调试的话12G的3060也能成功),我们在进行一个小组实验课题,这是第三个issues,非常感谢您的回答!

NLPIG commented 3 years ago

问题二:请问原版(tf版)也能实现deepspeed进行微调吗?

ghosthamlet commented 3 years ago

@NLPIG 不客气

问题一: ubuntu ..................... 16.10和18.04.5 显卡....................1080ti和2080ti 显卡驱动....................440.33.01 pytorch .................... 1.7.1 pytorch cuda ............... 10.2 nvcc ..................... 10.2 deepspeed ..................... >=0.3.7 transformers.....................>=3.1.0和<=3.5.1 以上版本都测试通过,3060的显卡我还没有测试。

问题二: deepspeed目前没有tf版本,tf版本需要用其他方法做微调。

NLPIG commented 3 years ago

@NLPIG 不客气

问题一: ubuntu ..................... 16.10和18.04.5 显卡....................1080ti和2080ti 显卡驱动....................440.33.01 pytorch .................... 1.7.1 pytorch cuda ............... 10.2 nvcc ..................... 10.2 deepspeed ..................... >=0.3.7 transformers.....................>=3.1.0和<=3.5.1 以上版本都测试通过,3060的显卡我还没有测试。

问题二: deepspeed目前没有tf版本,tf版本需要用其他方法做微调。

大佬您好,关于问题一:您用1080ti+2080ti做并行吗,怎么实现呢,不同型号显卡居然也能并行? 关于问题二:deepspeed不行,但好像国内天元最新的DTR技术可以哦,您抽空看看megengine,官网介绍: 说是能让2080ti也能微调V100-32G才能微调的模型。

ghosthamlet commented 3 years ago

问题一:没有做并行,1080ti是我工作电脑上的,2080ti是GPU服务器上的。 问题二:谢谢推荐megengine。megengine好像是一个完整的深度学习框架内置了大规模分布式训练功能,不能和tf或者pytorch搭配一起用吧?类似这样的的深度学习框架国内还有一个mindspore看上去也不错:https://github.com/mindspore-ai/mindspore 。不过pytorch加上deepspeed,运用上比较简单,而且现在可以把模型训练中的所有状态即参数、梯度、activiations和优化器状态全部offload到cpu和NVMe固态硬盘中,所以理论上用一块2080ti甚至能微调1000亿参数以上的模型。

NLPIG commented 3 years ago

问题一:没有做并行,1080ti是我工作电脑上的,2080ti是GPU服务器上的。 问题二:谢谢推荐megengine。megengine好像是一个完整的深度学习框架内置了大规模分布式训练功能,不能和tf或者pytorch搭配一起用吧?类似这样的的深度学习框架国内还有一个mindspore看上去也不错:https://github.com/mindspore-ai/mindspore 。不过pytorch加上deepspeed,运用上比较简单,而且现在可以把模型训练中的所有状态即参数、梯度、activiations和优化器状态全部offload到cpu和NVMe固态硬盘中,所以理论上用一块2080ti甚至能微调1000亿参数以上的模型。

受教了,再次感谢!