使用其他的数据集结果很差

Ian-peace commented 5 years ago

您好，我分别使用了： 1、您data目录下的demo数据集 2、您ResumeNER下的数据集 3、MSRA数据集（BIO） 4、人民日报数据集（BIO）无论是否放入预训练的词向量（ctb.50d.vec && gigaword_chn.all.a2b.uni.ite50.vec），只有ResumeNER目录下的数据集（2）结果达标，其余的召回率都在75%（3）、50%（1、4）左右。请问我应该怎么修改代码来使用这些数据集。谢谢

jiesutd commented 5 years ago

Demo 只是用来测试环境是否配置好，其结果很低是正常的 3.4. 请给我你的运行log我才知道问题在哪。

Ian-peace commented 5 years ago

感谢您的回复，可能是我的问题，我重新下载了您的代码，再次运行发现： 1、MSRA数据集，已基本达到您论文里的所说的表现 2、人民日报数据集，Epoch17：P: 83% R: 84% F1: 84%，表现还在提升，但提升很慢。 3、我将MSRA和人民日报的数据都通过您"tagSchemeConverter.py"文件从BIO格式转换成了BIOES格式，发现BIOES格式的数据训练更快（五万个实例，BIO需要4h，BIOES需要3h），表现也更好。我想问有可以解释的原因嘛？还有就是我之前的运行log没有保存，所以现在拿人民日报的数据重新训练了一次，现在只有前十轮的运行log。 log.txt

jiesutd commented 5 years ago

人民日报的我没跑过，当前最好的有多少？

Ian-peace commented 5 years ago

PRF1都到了98%左右，不过人民日报的测试集当中有部分是在训练集中被包含的。

jiesutd commented 5 years ago

训练集包含测试集是什么操作？这样的结果没什么意义啊

jiesutd / LatticeLSTM

使用其他的数据集结果很差 #61