Closed zhenhao-huang closed 3 years ago
稍微修改了模板就有了
微调了一个
fp32
精度的模型,有28g之大,可以加载成功,但是没有生成任何样例?
@zhenhao-huang 麻烦问下,你使用fp32 的模型,收敛效果正常吗?文本生产效果好不好呢? 我使用fp32, loss 一直在6.9 上下波动(max_seq_len=1000, batch_size=2),感觉好像不能正常收敛~ 不知道哪里的问题~
@zmingshi 就目前做的第一个任务来看,可以正常收敛,效果很好。经过我的大量实验,生成效果取决于模板。
@zmingshi 就目前做的第一个任务来看,可以正常收敛,效果很好。经过我的大量实验,生成效果取决于模板。
我的目前也正常收敛了,模版影响确实很大,你的模版长什么样子呢?
我的第一个任务是短文本生成,类似于对话,模板为文本内容<eod>文本内容<eod>...文本内容<eod>文本内容<eod>
,里面根据实际情况实现了很多的tricks
。目前,在做长文本生成,正在尝试。
微调文本生成建议使用fp32
精度,短文本生成
和长文本生成
模板可以分别参考文本内容<eod>文本内容<eod>...文本内容<eod>文本内容<eod>
和文本内容
,文本生成结果可看:https://github.com/zhenhao-huang/CPM-1-Finetune-Text-Generation/tree/main
微调了一个
fp32
精度的模型,有28g之大,可以加载成功,但是没有生成任何样例?