Closed Ian-peace closed 5 years ago
感谢您的回复,可能是我的问题,我重新下载了您的代码,再次运行发现: 1、MSRA数据集,已基本达到您论文里的所说的表现 2、人民日报数据集,Epoch17:P: 83% R: 84% F1: 84%, 表现还在提升,但提升很慢。 3、我将MSRA和人民日报的数据都通过您"tagSchemeConverter.py"文件从BIO格式转换成了BIOES格式,发现BIOES格式的数据训练更快(五万个实例,BIO需要4h,BIOES需要3h),表现也更好。我想问有可以解释的原因嘛? 还有就是我之前的运行log没有保存,所以现在拿人民日报的数据重新训练了一次,现在只有前十轮的运行log。 log.txt
人民日报的我没跑过,当前最好的有多少?
PRF1都到了98%左右,不过人民日报的测试集当中有部分是在训练集中被包含的。
训练集包含测试集是什么操作?这样的结果没什么意义啊
您好,我分别使用了: 1、您data目录下的demo数据集 2、您ResumeNER下的数据集 3、MSRA数据集(BIO) 4、人民日报数据集(BIO) 无论是否放入预训练的词向量(ctb.50d.vec && gigaword_chn.all.a2b.uni.ite50.vec),只有ResumeNER目录下的数据集(2)结果达标,其余的召回率都在75%(3)、50%(1、4)左右。 请问我应该怎么修改代码 来使用这些数据集。 谢谢