jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.
1.79k stars 457 forks source link

decode后文本中缺少10处字符 #18

Closed precision2intelligence closed 6 years ago

precision2intelligence commented 6 years ago

我们用decode去做序列标注时,发现得到的raw.out中缺失了大概10处字符,没有字符也没有标签。这十几处不连续,也不是以句子为单位的缺失,每处缺失的字符数不同,多的地方缺失近200个字符。我们用的saved_model是中间某一次new score对应的,因为目前训练还没有结束。问题:1、一定要用最高的score对应的save_model也就是最后一次保存的模型才可以得到正确结果吗?2、目前这种句子有缺失的情况,代码得出的指标p,r,f还是正确的吗?3、出现这种缺失的原因是?

precision2intelligence commented 6 years ago

这种方法对标点敏感。出现问题的地方都是以标点为开头的句子。

jiesutd commented 6 years ago

可能得检查一下数据格式

JokerSeven commented 6 years ago

@precision2intelligence 。你好,我在用decode做标注时也碰到了同样的问题。请问你们后来这个问题如何解决的?谢谢了

precision2intelligence commented 6 years ago

句子的最大长度那里改为-1,即最大。 @JokerSeven

JokerSeven commented 6 years ago

@precision2intelligence 。谢谢你