MegEngine / Models

采用MegEngine实现的各种主流深度学习模型
Other
303 stars 99 forks source link

请问有没有 GPT2-ML 预训练模型,希望结合 DTR 进行微调 #100

Open NLPIG opened 3 years ago

NLPIG commented 3 years ago

请求

实现MegEngine实现GPT2-ML(https://github.com/imcaspar/gpt2-ml)

任务描述

实验项目微调GPT2-ML,由于GPU资源不足(RTX 3060-12GB)无法调试,通过【机器之心】得知MegEngine1.4 DTR技术解决了动态图显存优化的问题,想请问有没有参考教程让我们能通过DTR实现对GPT2-ML的微调

目标

采用MegEngine实现的GPT2-ML模型,通过DTR进行微调

qq332982511 commented 3 years ago

可以先参考DTR教程试一试 https://megengine.org.cn/doc/stable/zh/user-guide/dtr.html

cheekyshibe commented 3 years ago

我的理解是你的问题有两个:

  1. 如何使用 DTR
  2. GPT2-ML pre-trained model

第一个问题楼上已经回答了,对于第二个问题,目前没有提供 GPT2-ML 的模型复现和预训练好的参数。 可以参考的解决思路是,尝试在 MegEngine 上对比其它框架的实现代码进行复现(MegEngine API 学习/迁移成本很低),比如你这里提到的 https://github.com/imcaspar/gpt2-ml/blob/master/train/modeling.py . 只要模型结构一致,参数可以通过读取其他框架预训练模型的 model.state_dict() 来进行微调,本质上都是 OrderedDict.

如果你利用 MegEngine 复现了经典模型,也欢迎和 Models 的库开发者联系调优,看能否成为 Contributor.

NLPIG commented 3 years ago

可以先参考DTR教程试一试 https://megengine.org.cn/doc/stable/zh/user-guide/dtr.html

好的

NLPIG commented 3 years ago

我的理解是你的问题有两个:

  1. 如何使用 DTR
  2. GPT2-ML pre-trained model

第一个问题楼上已经回答了,对于第二个问题,目前没有提供 GPT2-ML 的模型复现和预训练好的参数。 可以参考的解决思路是,尝试在 MegEngine 上对比其它框架的实现代码进行复现(MegEngine API 学习/迁移成本很低),比如你这里提到的 https://github.com/imcaspar/gpt2-ml/blob/master/train/modeling.py . 只要模型结构一致,参数可以通过读取其他框架预训练模型的 model.state_dict() 来进行微调,本质上都是 OrderedDict.

如果你利用 MegEngine 复现了经典模型,也欢迎和 Models 的库开发者联系调优,看能否成为 Contributor.

GPT2-ML也是基与bert,部分代码做了优化,我来试试,谢谢指导!