TsinghuaAI / CPM-1-Generate

Chinese Pre-Trained Language Models (CPM-LM) Version-I
MIT License
1.59k stars 211 forks source link

如何使用fp32精度微调出的模型 #36

Closed zhenhao-huang closed 3 years ago

zhenhao-huang commented 3 years ago

微调了一个fp32精度的模型,有28g之大,可以加载成功,但是没有生成任何样例?

zhenhao-huang commented 3 years ago

稍微修改了模板就有了

zmingshi commented 3 years ago

微调了一个fp32精度的模型,有28g之大,可以加载成功,但是没有生成任何样例?

@zhenhao-huang 麻烦问下,你使用fp32 的模型,收敛效果正常吗?文本生产效果好不好呢? 我使用fp32, loss 一直在6.9 上下波动(max_seq_len=1000, batch_size=2),感觉好像不能正常收敛~ 不知道哪里的问题~

zhenhao-huang commented 3 years ago

@zmingshi 就目前做的第一个任务来看,可以正常收敛,效果很好。经过我的大量实验,生成效果取决于模板。

zmingshi commented 3 years ago

@zmingshi 就目前做的第一个任务来看,可以正常收敛,效果很好。经过我的大量实验,生成效果取决于模板。

我的目前也正常收敛了,模版影响确实很大,你的模版长什么样子呢?

zhenhao-huang commented 3 years ago

我的第一个任务是短文本生成,类似于对话,模板为文本内容<eod>文本内容<eod>...文本内容<eod>文本内容<eod>,里面根据实际情况实现了很多的tricks。目前,在做长文本生成,正在尝试。

zhenhao-huang commented 3 years ago

微调文本生成建议使用fp32精度,短文本生成长文本生成模板可以分别参考文本内容<eod>文本内容<eod>...文本内容<eod>文本内容<eod>文本内容,文本生成结果可看:https://github.com/zhenhao-huang/CPM-1-Finetune-Text-Generation/tree/main