请问为什么预测结果文件比输入的test文件少了一些句子呀？

jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.

1.8k stars 453 forks source link

请问为什么预测结果文件比输入的test文件少了一些句子呀？ #136

Closed 2018211801 closed 2 years ago

2018211801 commented 2 years ago

我发现在mrsa数据训练预测后，输出的预测文件raw.out比test文件少了600句，而在其他数据集上并没有出现这种情况。这是为什么呢？太长的句子截断吗？还是去重了

2018211801 commented 2 years ago

补充：是规模大的数据集预测文件的句子变少，在小规模数据集如resumer、weibo里面的句子就没少

jiesutd commented 2 years ago

模型有默认最长处理句子的，超过最长的句子会被扔掉。可以通过https://github.com/jiesutd/LatticeLSTM/blob/24d17f4270f11d2f75046789d8b67eaa2b907dce/utils/data.py#L21 来设置，你在training 和predict 的log 里面也检查一下

2018211801 commented 2 years ago

好的谢谢您！！（我一开始想到了，但是检查了一下丢的句子发现长度也不长呀就直接否定了哈哈哈）