jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.
1.79k stars 457 forks source link

使用其他的数据集结果很差 #61

Closed Ian-peace closed 5 years ago

Ian-peace commented 5 years ago

您好,我分别使用了: 1、您data目录下的demo数据集 2、您ResumeNER下的数据集 3、MSRA数据集(BIO) 4、人民日报数据集(BIO) 无论是否放入预训练的词向量(ctb.50d.vec && gigaword_chn.all.a2b.uni.ite50.vec),只有ResumeNER目录下的数据集(2)结果达标,其余的召回率都在75%(3)、50%(1、4)左右。 请问我应该怎么修改代码 来使用这些数据集。 谢谢

jiesutd commented 5 years ago
  1. Demo 只是用来测试环境是否配置好, 其结果很低是正常的 3.4. 请给我你的运行log我才知道问题在哪。
Ian-peace commented 5 years ago

感谢您的回复,可能是我的问题,我重新下载了您的代码,再次运行发现: 1、MSRA数据集,已基本达到您论文里的所说的表现 2、人民日报数据集,Epoch17:P: 83% R: 84% F1: 84%, 表现还在提升,但提升很慢。 3、我将MSRA和人民日报的数据都通过您"tagSchemeConverter.py"文件从BIO格式转换成了BIOES格式,发现BIOES格式的数据训练更快(五万个实例,BIO需要4h,BIOES需要3h),表现也更好。我想问有可以解释的原因嘛? 还有就是我之前的运行log没有保存,所以现在拿人民日报的数据重新训练了一次,现在只有前十轮的运行log。 log.txt

jiesutd commented 5 years ago

人民日报的我没跑过,当前最好的有多少?

Ian-peace commented 5 years ago

PRF1都到了98%左右,不过人民日报的测试集当中有部分是在训练集中被包含的。

jiesutd commented 5 years ago

训练集包含测试集是什么操作?这样的结果没什么意义啊