如何使用fp32精度微调出的模型

TsinghuaAI / CPM-1-Generate

Chinese Pre-Trained Language Models (CPM-LM) Version-I

MIT License

1.59k stars 211 forks source link

如何使用fp32精度微调出的模型 #36

Closed zhenhao-huang closed 3 years ago

zhenhao-huang commented 3 years ago

微调了一个fp32精度的模型，有28g之大，可以加载成功，但是没有生成任何样例？

zhenhao-huang commented 3 years ago

稍微修改了模板就有了

zmingshi commented 3 years ago

微调了一个fp32精度的模型，有28g之大，可以加载成功，但是没有生成任何样例？

@zhenhao-huang 麻烦问下，你使用fp32 的模型，收敛效果正常吗？文本生产效果好不好呢？我使用fp32, loss 一直在6.9 上下波动（max_seq_len=1000, batch_size=2），感觉好像不能正常收敛~ 不知道哪里的问题~

zhenhao-huang commented 3 years ago

@zmingshi 就目前做的第一个任务来看，可以正常收敛，效果很好。经过我的大量实验，生成效果取决于模板。

zmingshi commented 3 years ago

@zmingshi 就目前做的第一个任务来看，可以正常收敛，效果很好。经过我的大量实验，生成效果取决于模板。

我的目前也正常收敛了，模版影响确实很大，你的模版长什么样子呢？

zhenhao-huang commented 3 years ago

我的第一个任务是短文本生成，类似于对话，模板为文本内容<eod>文本内容<eod>...文本内容<eod>文本内容<eod>，里面根据实际情况实现了很多的tricks。目前，在做长文本生成，正在尝试。

zhenhao-huang commented 3 years ago

微调文本生成建议使用fp32精度，短文本生成和长文本生成模板可以分别参考文本内容<eod>文本内容<eod>...文本内容<eod>文本内容<eod>和文本内容，文本生成结果可看：https://github.com/zhenhao-huang/CPM-1-Finetune-Text-Generation/tree/main