jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.
1.8k stars 453 forks source link

请问为什么预测结果文件比输入的test文件少了一些句子呀? #136

Closed 2018211801 closed 2 years ago

2018211801 commented 2 years ago

我发现在mrsa数据训练预测后,输出的预测文件raw.out比test文件少了600句,而在其他数据集上并没有出现这种情况。这是为什么呢?太长的句子截断吗?还是去重了

2018211801 commented 2 years ago

补充:是规模大的数据集预测文件的句子变少,在小规模数据集如resumer、weibo里面的句子就没少

jiesutd commented 2 years ago

模型有默认最长处理句子的,超过最长的句子会被扔掉。 可以通过https://github.com/jiesutd/LatticeLSTM/blob/24d17f4270f11d2f75046789d8b67eaa2b907dce/utils/data.py#L21 来设置,你在training 和predict 的log 里面也检查一下

2018211801 commented 2 years ago

好的谢谢您!! (我一开始想到了,但是检查了一下丢的句子发现长度也不长呀就直接否定了哈哈哈)