关于Macbert和T5模型训练的问题

EASTERNTIGER commented 2 years ago

两个模型分别遇到一个小问题， 1.MacBert模型之前在服务器上训练完成后会自动结束程序进程。现在发现模型训练结束后已经产生了新模型但是后台显示 python -u run.py --data_name 20221104_robert_base --batch_size 64 --bert_checkpoint pretrain_model/chinese-roberta-wwm-ext仍在运行，并占用服务器显存，请问这是什么情况。 2.使用相同的数据对T5进行模型训练，运行显示Num Epochs = 1，训练速度极其快一个epoch就训练完了但是效果很差，但是train.py里默认的epochs 为10，请问为什么没有按照epoch=10进行训练呢？

shibing624 commented 2 years ago

1、进程自己kill就行； 2、t5用的是transformers的trainer，训练轮数取决于max_steps

EASTERNTIGER commented 2 years ago

1、进程自己kill就行； 2、t5用的是transformers的trainer，训练轮数取决于max_steps

好的，谢谢。所以我想增加训练轮数只要修改max_steps就可以了，不需要改epochs了，也不需要关注Num Epochs = 1对吗？

shibing624 / pycorrector

关于Macbert和T5模型训练的问题 #337