Closed EASTERNTIGER closed 1 year ago
两个模型分别遇到一个小问题, 1.MacBert模型之前在服务器上训练完成后会自动结束程序进程。现在发现模型训练结束后已经产生了新模型但是后台显示 python -u run.py --data_name 20221104_robert_base --batch_size 64 --bert_checkpoint pretrain_model/chinese-roberta-wwm-ext仍在运行,并占用服务器显存,请问这是什么情况。 2.使用相同的数据对T5进行模型训练,运行显示Num Epochs = 1,训练速度极其快一个epoch就训练完了但是效果很差,但是train.py里默认的epochs 为10,请问为什么没有按照epoch=10进行训练呢?
1、进程自己kill就行; 2、t5用的是transformers的trainer,训练轮数取决于max_steps
好的,谢谢。所以我想增加训练轮数只要修改max_steps就可以了,不需要改epochs了,也不需要关注Num Epochs = 1对吗?
两个模型分别遇到一个小问题, 1.MacBert模型之前在服务器上训练完成后会自动结束程序进程。现在发现模型训练结束后已经产生了新模型但是后台显示 python -u run.py --data_name 20221104_robert_base --batch_size 64 --bert_checkpoint pretrain_model/chinese-roberta-wwm-ext仍在运行,并占用服务器显存,请问这是什么情况。 2.使用相同的数据对T5进行模型训练,运行显示Num Epochs = 1,训练速度极其快一个epoch就训练完了但是效果很差,但是train.py里默认的epochs 为10,请问为什么没有按照epoch=10进行训练呢?