crownpku / Information-Extraction-Chinese

Chinese Named Entity Recognition with IDCNN/biLSTM+CRF, and Relation Extraction with biGRU+2ATT 中文实体识别与关系提取
2.22k stars 813 forks source link

请问关于NER_IDCNN_CRF中关于训练次数的疑问 #126

Closed LittleSJL closed 3 years ago

LittleSJL commented 3 years ago

您好作者,再次就代码中模型迭代次数(训练次数, max_eopoch)提出一些问题:

在您的原始代码中,max_eopch设置的是100,但我在实际跑模型的过程中发现大概10次左右(可能7,8次;可能12,13次),模型在训练集上的loss和在测试集上的F1值就会出现波动,所以再往后训练,即使loss会不断下降,大概率会overfit,所以我最终把训练次数设置在了10次左右。

我想问的是: 1、您设置100次的目的或者根据是什么呢?你在实际跑模型的时候具体用的是多少呢?(数据集我用的就是您给的) 2、为什么无论是用您给的ID_CNN或者LSTM,模型都收敛这么慢呢(我在别的github项目中用同样的数据集,大部分都是3、4次就收敛了),是否和loss的计算有关呢?请问这是10次左右才收敛是正常的吗?

希望能得到您的解答,谢谢!